当前位置: 代码网 > it编程>前端脚本>Python > Python re模块的使用全过程

Python re模块的使用全过程

2025年04月14日 Python 我要评论
一、模块简介re 模块是 python 标准库中处理正则表达式的核心工具,提供强大的文本模式匹配、搜索和替换功能。通过特定的语法规则,可以快速完成以下任务:数据验证(邮箱/手机号格式校验)文本内容提取

一、模块简介

re 模块是 python 标准库中处理正则表达式的核心工具,提供强大的文本模式匹配、搜索和替换功能。通过特定的语法规则,可以快速完成以下任务:

  • 数据验证(邮箱/手机号格式校验)
  • 文本内容提取(日志分析/网页爬虫)
  • 批量文本处理(格式转换/敏感词过滤)
  • 复杂字符串操作(多条件分割/模板替换)

正则表达式引擎基于 pcre(perl compatible regular expressions)实现

二、核心功能

  • 函数介绍:
函数名称匹配范围返回类型适用场景性能特点
re.match仅字符串开头match/none格式校验快速失败
re.search全局首次匹配match/none内容提取中等性能
re.findall所有非重叠匹配list批量数据收集内存消耗高
re.finditer所有非重叠匹配iterator大文本处理内存友好
re.split分割字符串list复杂分隔符处理替代str.split
re.compile-pattern对象高频正则表达式复用提升30%性能

三. 功能详解

1. re.match(pattern, string, flags=0)

特点

  • 仅匹配字符串开头,如果不是起始位置匹配成功的话,match() 就返回 none
  • 相当于自动添加^锚点

参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串。
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志

返回值

  • 成功:re.match对象,使用 group(num)groups() 匹配对象函数来获取匹配表达式
  • 失败:none
匹配对象方法描述
group(num=0)匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups()返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
  • 使用案例
# 验证字符串是否以数字开头,调用这个方法等同于 r'^\d+'
# 如果匹配的字符串是c123abc,是匹配不到的
if re.match(r'\d+', '123abc'):
    print("valid header")
else:
    print("invalid header")

# 提取开头的版本号
version = re.match(r'v?(\d+\.\d+)', 'v3.8.1').group(1)  # '3.8'

2. re.search(pattern, string, flags=0)

特点

  • 扫描整个字符串寻找第一个匹配
  • 支持复杂定位逻辑

参数与返回:同re.match

使用案例

# 查找第一个有效数字串,只匹配第一个
text = "total: 1500 items, price $299"
match = re.search(r'\d+', text)
if match:
    print(f"价格:{match.group()}")  # 1500

# 带条件的搜索
pattern = r'(?<=id:)\s*[a-z0-9]{8}'  # 查找id后的8位编码
id_code = re.search(pattern, "user id: ab3xk9p2").group()  # ab3xk9p2

3. re.compile(pattern, flags=0)

特点

  • 预编译正则表达式,生成一个正则表达式( pattern )对象
  • 适合高频调用场景

参数说明

  • pattern : 一个字符串形式的正则表达式
  • flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
    • re.ignorecasere.i - 使匹配对大小写不敏感
    • re.l 表示特殊字符集 \w, \w, \b, \b, \s, \s 依赖于当前环境
    • re.multilinere.m - 多行模式,改变 ^$ 的行为,使它们匹配字符串的每一行的开头和结尾。
    • re.dotallre.s - 使 . 匹配包括换行符在内的任意字符。
    • re.ascii - 使 \w, \w, \b, \b, \d, \d, \s, \s 仅匹配 ascii 字符。
    • re.verbosere.x - 忽略空格和注释,可以更清晰地组织复杂的正则表达式。

这些标志可以单独使用,也可以通过按位或(|)组合使用。例如,re.ignorecase | re.multiline 表示同时启用忽略大小写和多行模式。

返回re.pattern对象

使用案例

# 预编译邮箱验证正则
email_re = re.compile(
    r'''(
        [\w\.-]+          # 用户名
        @ 
        [\w\.-]+          # 域名
        \.
        [a-za-z]{2,4}     # 顶级域名
    )''', re.verbose)

# 复用编译对象
valid = email_re.match('user@example.com') is not none  # true

案例调用match匹配成功时返回一个 match 对象,其中:

  • group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group()group(0)
  • start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0
  • end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0
  • span([group]) 方法返回 (start(group), end(group))

4. re.findall(pattern, string, flags=0)

特点:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。

^注意: match 和 search 是匹配一次 findall 匹配所有。

参数说明

  • pattern 匹配模式。
  • string 待匹配的字符串。
  • pos 可选参数,指定字符串的起始位置,默认为 0。
  • endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。

返回值

  • 无分组:匹配字符串列表 [‘a’, ‘b’, …]
  • 有分组:分组元组列表 [(‘a’, ‘1’), …]

使用案例

# 提取所有数字
numbers = re.findall(r'\d+', 'a1b23c456')
print(numbers)  # ['1','23','456']

# 分组提取日期成分
dates = re.findall(r'(\d{4})-(\d{2})-(\d{2})', '2023-08-01, 2025-03-15')
print(dates)  # [('2023','08','01'), ('2025', '03', '15')]

5. re.finditer(pattern, string, flags=0)

特点

  • 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
  • 处理大文本时内存更高效
参数描述
pattern匹配的正则表达式
string要匹配的字符串。
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志
  • 返回值callable_iterator对象
  • 使用案例
# 处理100mb日志文件
with open('server.log') as f:
    for match in re.finditer(r'$$(error|warn)$$.*?(req_id=\w+)', f.read()):
        level = match.group(1)
        req_id = match.group(2)
        print(f"{level}报警:{req_id}")

6. re.split(pattern, string, maxsplit=0, flags=0)

特点

  • split 方法按照能够匹配的子串将字符串分割后返回列表
  • 保留分割符内容(使用分组时)

参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串。
maxsplit分割次数,maxsplit=1 分割一次,默认为 0,不限制次数。
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志
  • 使用案例
# 复杂分隔符分割
text = "apple, banana;cherry|orange"
parts = re.split(r'[,;|]\s*', text)  # ['apple','banana','cherry','orange']

# 带保留分隔符的分割
re.split(r'([,;])', 'a,b;c')  # ['a', ',', 'b', ';', 'c']

# 控制分割次数
re.split(r'\d+', 'a1b22c333d', maxsplit=2)  # ['a','b','c333d']

四、综合应用案例

日志分析系统

log_pattern = re.compile(r'''
    (?p<time>\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})  # 时间
    \s\|\s
    (?p<level>info|error|warn)                      # 日志级别
    \s\|\s
    (?p<module>\w+)\.py                             # 模块
    :(?p<line>\d+)                                  # 行号
    \s-\s
    (?p<msg>.+)                                     # 消息
''', re.verbose)

for log in open('app.log'):
    if (match := log_pattern.search(log)):
        print(f"{match.group('time')} [{match.group('level')}]", 
              f"{match.group('module')}:{match.group('line')}",
              match.group('msg'))

五、正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。

以下标志可以单独使用,也可以通过按位或(|)组合使用。

例如:re.ignorecase | re.multiline 表示同时启用忽略大小写和多行模式。

最佳实践建议

  1. ​优先使用编译对象:当正则使用超过3次时
  2. ​合理使用分组:避免过多捕获组影响性能
  3. ​注意贪婪匹配:非贪婪模式.*?可避免意外匹配
  4. ​处理特殊字符:用re.escape()处理动态输入
  5. 控制回溯次数:复杂正则可能引发性能问题

完整api文档:python re模块官方文档

模块功能说明
用户管理1. 注册登录2. 权限控制3. 资料修改
订单系统
  • 创建订单
  • 支付处理
  • 物流跟踪

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com