正则表达式中一些难理解的匹配方式
(?:pattern)
()表示捕获分组,()会把每个分组里的匹配的值保存起来,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推
(?:)表示非捕获分组,和捕获分组唯一的区别在于,非捕获分组匹配的值不会保存起来
import re
a = "123abc456ww"
pattern = "([0-9]*)([a-z]*)([0-9]*)"
print(re.search(pattern,a).group(0,1,2,3))pattern = "(?:[0-9]*)([a-z]*)([0-9]*)"
print(re.search(pattern,a).group(0,1,2))
文章图片
可以看到 (?:[0-9]) 匹配的第一个 [0-9] 没有保存下来,即没有保存匹配到的“123”,而([0-9]*)则保存了下来。
python中group(0)返回匹配到的整体
(?:pattern)在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如,'industr(?:y|ies)' 就是一个比 'industry|industries' 更简略的表达式。因为我们单独存储下 “y” 或者 “ies” 没有什么意义
a = "British industry"
pattern = "industr(?:y|ies)"
print(re.search(pattern,a).group(0))pattern = "industr(y|ies)"
print(re.search(pattern,a).group(0, 1))//group(1)会报错,因为没有保存捕获到的“y”
(?=pattern) 正向肯定预查(look ahead positive assert),匹配pattern前面的位置。简单说,以 xxx(?=pattern)为例,就是捕获以pattern结尾的内容xxx
1、这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
industr(?=y|ies) ---> "industr"
2、预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
文章图片
(?!pattern) 正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
【正则表达式中一些难理解的匹配方式】简单说,以 xxx(?!pattern)为例,就是捕获不以pattern结尾的内容xxx
例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?<=pattern) 反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。
简单说,以(?<=pattern)xxx为例,就是捕获以pattern开头的内容xxx。
例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。
(?<!pattern) 简单说,以(? 反向否定预查,与正向否定预查类似,只是方向相反。例如"(? 贪婪匹配和非贪婪匹配
var str="abcaxc";
var p=/ab.*c/;
//贪婪匹配
str.match(p);
//abcaxc
var p2 = /ab.*?c/;
//非贪婪匹配
str.match(p2);
//abc
贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab.*c)。
非贪婪匹配:就是匹配到结果就好,就少的匹配字符。如上面使用模式p2匹配字符串str,结果就是匹配到:abc(ab.*?c)。
推荐阅读
- 热闹中的孤独
- Shell-Bash变量与运算符
- JS中的各种宽高度定义及其应用
- 2021-02-17|2021-02-17 小儿按摩膻中穴-舒缓咳嗽
- 深入理解Go之generate
- 异地恋中,逐渐适应一个人到底意味着什么()
- 我眼中的佛系经纪人
- 《魔法科高中的劣等生》第26卷(Invasion篇)发售
- “成长”读书社群招募
- 2020-04-07vue中Axios的封装和API接口的管理