python常用正则表达式及作用
正则表达式是处理字符串的强大工具,python通过re
模块提供正则表达式支持:
基本匹配模式
匹配数字
\d
:匹配任意数字,等价于[0-9]
\d
:匹配任意非数字,等价于[^0-9]
- 示例:
r'\d+'
匹配一个或多个连续数字
匹配字母和数字
\w
:匹配字母、数字或下划线,等价于[a-za-z0-9_]
\w
:匹配非字母、数字、下划线,等价于[^a-za-z0-9_]
匹配空白字符
\s
:匹配任意空白字符(空格、制表符、换行等)\s
:匹配任意非空白字符
匹配任意字符
.
:匹配除换行符外的任意单个字符
常用正则表达式示例
匹配邮箱地址
r'[\w\.-]+@[\w\.-]+\.\w+'
匹配url
r'https?://(?:[-\w.]|(?:%[\da-fa-f]{2}))+'
匹配ip地址
r'\b(?:\d{1,3}\.){3}\d{1,3}\b'
匹配中文
r'[\u4e00-\u9fa5]'
匹配日期(yyyy-mm-dd格式)
r'\d{4}-\d{1,2}-\d{1,2}'
匹配手机号码(中国大陆)
r'1[3-9]\d{9}'
匹配html标签
r'<[^>]+>'
匹配身份证号(18位)
r'[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dxx]'
常用量词
*
:匹配前一个字符0次或多次+
:匹配前一个字符1次或多次?
:匹配前一个字符0次或1次{n}
:匹配前一个字符恰好n次{n,}
:匹配前一个字符至少n次{n,m}
:匹配前一个字符n到m次
边界匹配
^
:匹配字符串开头$
:匹配字符串结尾\b
:匹配单词边界\b
:匹配非单词边界
分组和捕获
()
:创建捕获组(?:)
:创建非捕获组(?p<name>)
:命名捕获组
常用re模块方法
re.match()
:从字符串开头匹配re.search()
:搜索整个字符串re.findall()
:返回所有匹配结果re.finditer()
:返回匹配结果的迭代器re.sub()
:替换匹配的字符串re.split()
:根据模式分割字符串
示例代码
import re # 查找所有数字 text = "我有3个苹果和5个橙子" numbers = re.findall(r'\d+', text) # ['3', '5'] # 验证邮箱格式 email = "test@example.com" if re.match(r'[\w\.-]+@[\w\.-]+\.\w+', email): print("邮箱格式正确") # 提取url html = '<a href="https://www.example.com" rel="external nofollow" >链接</a>' url = re.search(r'href="(https?://[^" rel="external nofollow" ]+)"', html).group(1)
到此这篇关于python常用的正则表达式及作用的文章就介绍到这了,更多相关python正则表达式内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论