| 预定义字符 | 说明 |
|---|---|
| \w | 匹配下划线“”或任何字母(a-zA-Z)与数字(0-9)等价于a-zA-Z0-9 |
| \W | 与\w相反,匹配特殊字符等价于**^a-zA-Z0-9_** |
| \s | 匹配任意的空白字符,等价于**空格>\r\n\f\v** |
| \S | 与\s相反,匹配任意非空白字符的字符,等价于**^\s** |
| \d | 匹配任意数字,等价于0-9 |
| \D | 与\d相反,匹配任意非数字的字符,等价于**^\d** |
| \b | 匹配单词的边界 |
| \B | 与\b相反,匹配不出现在单词边界的元素 |
| \A | 仅匹配字符串开头,等价于^ |
| \Z | 仅匹配字符串结尾,等价于$ |
元字符:
| 元字符 | 说明 |
|---|---|
| . | 匹配任何一个字符(除换行符**\n**除外) |
| ^ | 脱字符,匹配行的开始 |
| $ | 美元符,匹配行的结束 |
| | | 连接多个可选元素,匹配表达式中出现的任意子项 |
| [] | 字符组,匹配其中的出现的任意一个字符 |
| - | 连字符,表示范围,如“1-5”等价于“1、2、3、4、5” |
| ? | 匹配其前导元素0次或1次 |
| * | 匹配其前导元素0次或多次 |
| + | 匹配其前导元素1次或多次 |
| {n}/{m,n} | 匹配其前导元素n次/匹配其前导元素m~n次 |
| () | 在模式中划分出子模式,并保存子模式的匹配结果 |
一般来说,使用+、?、*、{n}、{n,}和{n,m}时,即激活正则表达式的贪婪模式。可以在其后加入?来取消贪婪模式。
一般来见,重复多次匹配就是贪婪模式,也就是尽可能匹配多个字符。
比如:
import re lineOne = "Who is the Mintimate" # 贪婪模式 print(re.findall(r'\w+',lineOne)) # 非贪婪模式 print(re.findall(r'\w',lineOne)) print(re.findall(r'\w+?',lineOne))
输出:
['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
可以看到,使用**?**来激活非贪婪模式,基本是让多次匹配无效化。
之所以捕获与非捕获括号单独出来讲,其实是我当时学习正则时候,这边卡了很久。
()(?:)捕获括号其实就是代码里的优先级一样,比如:
2*(2+3)=10
之所以,我们会先算2+3,是因为有**()的存在。正则里也是,如果存在()**,则会优先捕获()内的内容:
import re lineOne = "Who is Mintimate?" # 未使用捕获括号 print(re.findall(r'Mintimate',lineOne)) # 使用捕获括号 print(re.findall(r'M(intimate)',lineOne)) # 使用非捕获括号 print(re.findall(r'M(?:intimate)',lineOne))
输出结果:
['Mintimate']
['intimate']
['Mintimate']
而非捕获括号主要与|同时使用:
import re lineOne = "This is the Mintimate,not the Minimen?" print(re.findall(r'M(?:intimate|inimen)',lineOne))
输出结果:
['Mintimate', 'Minimen']
主要讲解Python下的几个方法使用方法。
match(…)即:
re.match(pattern, string, flags=0)
参数的具体含义如下:
使用match进行正则匹配,可以方便我们对字符串内类型的判断,如:是否为纯数字或第一位数否为数字
import re
lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))
输出结果:
re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 7), match='7704194'>
===
None
None
其中,\d为匹配0-9的数字类型,而+是匹配出现1次或多次。
正则搜索,常用的是search和findall方法了,方法体均一样:
re.search(pattern, string, flags=0) re.findall(pattern, string, flags=0)
search和march类似,均是匹配字符串内容,不符合返回None。但是主要区别:
代码中更形象:
import re lineOne = "7704194" lineTwo = "My UID in Tencent Community is:7704194" # 使用match搜索纯数字字符串 print(re.match(r"\d", lineOne)) # 使用search搜索纯数字字符串 print(re.search(r"\d", lineOne)) # 使用match搜索复合字符串 print(re.match(r"\d", lineTwo)) # 使用search搜索复合字符串 print(re.search(r"\d", lineTwo))
其输出结果:
re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 1), match='7'>
None
re.Match object; span=(31, 32), match='7'>
而findall,在上match和search的前提下,进一步封装。相对于强化版的match和search:
import re lineOne = "7704194" lineTwo = "My UID in Tencent Community is:7704194" print(re.findall(r'\d',lineOne)) print(re.findall(r"\d",lineTwo))
输出结果:
['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']
而如果你想完成提取:
print(re.findall(r"\d+",lineTwo))
输出:
['7704194']
方便在数据处理时,快速提取连续数字╮( ̄▽ ̄"")╭。
单单看文档,总是不实际。这边我演示几个正则表达式的实例(我根据我自己使用环境所写,可能在其他特殊环境有问题)
在写爬虫时候,有时候得到的URL是带标签(#)或者Get请求(?id=*)的,但是有时候我们需要去除这些参数,得到纯净的URL地址,这个时候可以用正则表达式:
lineOne = "https://www.mintimate.cn#mintimate" lineTwo = "https://www.mintimate.cn?user=mintimate" print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne)) print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))
效果:
['https://www.mintimate.cn']
['https://www.mintimate.cn']
这里主要的细节:
|进行配合用正则匹配IPv4就比较复杂了,我是这样写的:
import re
lineOne = "192.168.1.1"
lineTwo="这不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))
输出结果为:
re.Match object; span=(0, 11), match='192.168.1.1'>
None
解释一下:
{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重复三次匹配,((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我们可以拆分为两部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位为2开头、第二位为1到5或1到4、最后一位为0到9;后者是匹配第一位为0或1,且?代表可以不存在这一项,后两位为两位0-9的数字。使用正则表达式,很大程度是为了精简代码,但是存在一下问题:
解决方案:
正则表达式是一个很重要的工具,尤其是在Python数据处理时,能高效处理问题事件。看完这篇文章后,应该对正则表达式不在陌生,感兴趣可以自己写个正则规则,如:强密码判断、IPv6的判断等。
另外,因为篇幅所限,更多Python内的细则,可以参考官方文档:
https://docs.python.org/zh-cn/3.9/library/re.html
到此这篇关于浅谈Python中的正则表达式的文章就介绍到这了,更多相关Python正则表达式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!