最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
python正则表达式贪婪模式与非贪婪模式原理用法实例
时间:2019-10-14 编辑:袖梨 来源:一聚教程网
本篇文章小编给大家分享一下python正则表达式贪婪模式与非贪婪模式原理用法实例,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。
之前未接触过正则表达式,今日看python网络爬虫的源码,里面一行正则表达式匹配的代码初看之下,不是很理解,代码如下:
myItems = re.findall('(.*?)
“.*?”这种匹配方式,按理解应该是匹配任意字符0个或多个(re.S模式,“.”可以匹配“n”),但是这个“?”总觉的在这儿是多余的,既然不理解,就敲代码试试:
import re patern = re.compile('www..*') match1 = patern.match("www.baidu.com") if match1: print(match1.group()) else: print("match1 don't match") #output >>> ==================RESTART ============================= >>> www.baidu.com
这个结果,应该说是意料之中,加个“?”呢?
import re patern = re.compile('www..*?') match1 = patern.match("www.baidu.com") if match1: print(match1.group()) else: print("match1 don't match") #output >>> ==================RESTART ============================= >>> www.
竟然是这个结果。。。“.?”一个字符都没匹配,按“.”、“”、“?”的匹配理解,也就是“*”“?”均匹配前面字符0次,才会是这个结果,可是为啥就是0次了?
这就是正则表达式贪婪模式和非贪婪模式:
贪婪模式,总是尝试匹配尽可能多的字符;
非贪婪模式则相反,总是尝试匹配尽可能少的字符。
Python里数量词默认是贪婪的,这就解释了第一个匹配实验,输出结果为”www.baidu.com”(贪婪模式),也就是说第二个匹配实验是非贪婪模式,仅仅因为加了“?”,继续实验
import re patern = re.compile('www..?') match1 = patern.match("www.baidu.com") if match1: print(match1.group()) else: print("match1 don't match") #output >>> ==================RESTART ============================= >>> www.b
此次匹配结果,显然是贪婪模式。奇怪了,也就是“?”的特殊组合才是非贪婪模式。
网上搜索得如下说明:
标准量词修饰的子表达式,在可匹配可不匹配的情况下,总会先尝试进行匹配,称这种方式为匹配优先,或者贪婪模式。此前介绍的一些量词,“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词,也就是在标准量词后加一个“?”,此时,在可匹配可不匹配的情况下,总会先忽略匹配,只有在由忽略优先量词修饰的子表达式,必须进行匹配才能使整个表达式匹配成功时,才会进行匹配,称这种方式为忽略优先,或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。
显然“*?”的组合是非贪婪模式,猜想正确,原来如此啊。
相关文章
- Golang ProtoBuf的基本语法详解 10-20
- Python识别MySQL中的冗余索引解析 10-20
- Python+Pygame绘制小球代码展示 10-18
- Python中的数据精度问题介绍 10-18
- Python随机值生成的常用方法介绍 10-18
- python3解压缩.gz文件分析 09-27