python 正则表达式（常用）

更新时间：2025-07-01 00:00点击：245

本文讲解一下Python的正则表达式，主要介绍正则表达式的概念、在Python中如何使用正则表达式，常用的正则表达式处理函数，最后分享几个简单的使用示例。

一、正则表达式

1、概念

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。

2、用途

匹配和查找文本：使用正则表达式可以快速匹配和查找特定模式的文本，例如查找包含特定单词的句子、匹配邮箱、电话等；
数据清洗和处理：去除特定字符或标签、提取文本中的有效信息等；
表单验证：正则表达式可以用于验证用户输入的表单数据，验证邮箱地址是否合法等；
字符串替换：将文本中的某个模式替换为另一个字符串；
提取信息：提取特定的信息，例如提取网页中的链接，日志中的关键信息。

3、在线测试工具

链接：正则表达式

二、Python正则表达式

Python内置了re模块，封装了一些函数用来处理正则表达式。简单示例：

import reraw_str = 'abc12def'result = re.search('/d+', raw_str)print(result.group())  # 12

三、re模块常用函数

1、re.match

尝试从字符串的起始位置匹配一个模式，如果不是起始位置，match返回None。 re.match(pattern, string, flags=0)

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串
flags	标志位，用于控制正则表达式的匹配方式，比如：是否区分大小写，多行匹配等

re.I 使匹配对大小写不敏感
re.L 做本地化识别匹配
re.M 多行匹配
re.S 使.匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符
re.X 为了增加可读性，忽略空格和#后面的注释

2、re.search

扫描整个字符串并返回第一个成功的匹配。

search vs match

match要从字符串的起始位置匹配。

import reraw_str = 'abc12def'result1 = re.search('/d+', raw_str)result2 = re.match('/d+', raw_str)print(result1.group())  # 12print(result2.group())  # None

3、re.sub

用于替换字符串中的匹配项。 re.sub(pattern, repl, string, count, flags)

参数	描述
pattern	匹配的正则表达式
repl	替换的字符串，也可以是一个函数
string	要匹配的字符串
count	模式陪陪后替换的最大次数，默认替换所有
flags	标志位，用于控制正则表达式的匹配方式，比如：是否区分大小写，多行匹配等

简单替换：

import rephone = "2024-959-459"# 删除非数字'-'num = re.sub(r'/D', phone)print(num) # 2024959459

函数模式替换：

import re# 将匹配的数字乘以2def double(matched):    value = int(matched.group('value'))    return str(value * 2)    raw_str = 'A12B3C'    print(re.sub('(?P<value>/d+)',double, raw_str)) # A24B6C

4、re.compile

compile函数用于编译正则表达式，生成一个正则表达式Pattern对象，供match和search使用。 re.compile(pattern[, flags])

import repattern = re.compile(r'/d+')                    # 用于匹配至少一个数字m = pattern.match('12twothree34four')        # 查找头部，没有匹配print(m.group(0)) # 12

5、re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表。 findall(pattern, string, flags=0)

import repattern = re.compile(r'/d+')   # 查找数字result = pattern.findall('abc 123 def 456')print(result) # [123,456]

如果匹配不到返回空列表。

6、re.finditer

在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。 re.finditer(pattern, string, flags=0)

import reit = re.finditer(r"/d+","12a32bc43jf3") for match in it:     print (match.group())

12 32 43 3

7、re.split

按照能够匹配的子串将字符串分割后返回列表。

re.split(pattern, string[, maxsplit=0, flags=0])

maxsplit 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

import reprint(re.split('/W+', 'hello,world,')) # ['hello','world','']import rere.split('b*', 'hello world') ['hello world']

找不到匹配的字符串，split 不会分割。

8、分组

正则表达式中，group（）用来提出分组截获的字符串。

import rea = "123abc456"print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))  # 123abc456,返回整体print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))  # 123print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))   # abcprint(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))  # 456

正则表达式中的三组括号把匹配结果分成三组 group() 同group（0）就是匹配正则表达式整体结果 group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。

9、贪婪模式与非贪婪模式

import retext = "0123456"# 贪婪模式result1 = re.match('/d+',text)# 非贪婪模式result2 = re.match('/d+?',text)print(result1.group()) # 0123456print(result2.group()) # 0

四、正则表达式模式

参数	描述
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符,除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a，b，c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{n}	精确匹配n个前面表达式。例如，o{2}不能匹配"Bob"中的"o"，但是能匹配"food"中的两个o。
re{n,}	匹配n个前面表达式。例如，o{2,}不能匹配"Bob"中的"o"，但能匹配
re{n,m}	匹配n到m次由前面的正则表达式定义的片段，贪婪方式
a/\|b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本
(?imx)	正则表达式包含三种可选标志：i,m,或x。只影响括号中的区域。
(?-imx)	正则表达式关闭 i,m,或x可选标志。只影响括号中的区域。
(?:re)	类似 (...),但是不表示一个组
(?imx:re)	在括号中使用i,m,或x可选标志
(?-imx:re)	在括号中不使用i,m,或x可选标志
(?#...)	注释.
(?=re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?!re)	前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功
(?>re)	匹配的独立模式，省去回溯。
/w	匹配字母数字及下划线
/W	匹配非字母数字及下划线
/s	匹配任意空白字符，等价于 []。
/S	匹配任意非空字符
/d	匹配任意数字，等价于 [0-9].
/D	匹配任意非数字
/A	匹配字符串开始
/Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
/z	匹配字符串结束
/G	匹配最后匹配完成的位置。
/b	匹配一个单词边界，也就是指单词和空格间的位置。例如，'e'可以匹配"never"中的'er'，但不能匹配"verb"中的 'er'。
/B	匹配非单词边界。'er/B' 能匹配"verb"中的 'er'，但不能匹配"never"中的'er'。
/n,/t,等.	匹配一个换行符。匹配一个制表符。
/1.../9	匹配第n个分组的内容。
/10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

五、常用示例

1、匹配"Python"或"python"

[Pp]ython

2、匹配括号内的任意字母

[aeiou]

3、匹配任意字母或数字

[a-zA-Z0-9]

4、匹配除了数字外的字符

[^0-9]或/D

5、匹配邮箱

[/w/.-]+@/./w+

6、findall多个匹配模式，返回元组列表

import reresult = re.findall(r'(/w+)=(/d+)','width=20,height=10')print(result) # [('width','20'),('height','10')]

7、返回字典对象

import reraw_str = '132929199703271118'result = re.search('(?P<province>/d{3})(?P<city>/d{3})(?P<birthday>/d{8})', raw_str)print(result.groupdict())

{'province': '132', 'city': '929', 'birthday': '19970327'}

如果您觉得对你有帮助，请不要吝啬你的爱心，如果有更多正则表达式技巧，也欢迎分享！

上一篇：Python正则表达式详解（超详细，看完必会！） 下一篇：Python 中的 datetime 模块