「Python ​正则」使用专题总结

  • A+
所属分类:安全开发

腾讯课堂 | Python网络爬虫与文本分析


「Python ​正则」使用专题总结

我的施工之路

1我的施工计划

2数字专题

3字符串专题

4列表专题

5流程控制专题

6编程风格专题

7函数使用

8面向对象编程(上篇)

9面向对象编程(下篇)

10十大数据结构

11包和模块使用总结

今天开始Python进阶模块总结之正则专题,目录结构如下:

  • 1 学习正则的价值

  • 2 正则学习前的几个准备

    • Q1 字符 `r`是干啥的?

    • Q2 什么是一个原子操作?

    • Q3 怎么理解正则中的转义?

  • 3 掌握最常用规则

    • 情况1:最普通查找

    • 情况2:使用通用字符

    • 情况3:使用元字符

  • 4 有个棘手的场景

  • 5 学会提取子串的技能

  • 6 使用捕获的注意事项

1 学习正则的价值

正则应用广泛。不仅在Python语言中使用,其他语言也都在用,并且不同语言间的正则语法极为相似。同时主流操作系统,尤其linux系统的命令窗口中,也会经常使用到正则。还有,Python的常用包如Pandas,也经常遇到正则。

不仅使用广泛,正则功能也很强大,还有书写简便,因此这项技能值得我们仔细研究和掌握。

2 正则学习前的几个准备

Q1 字符 r是干啥的?

经常见过正则表达式前有一个字符 r,它的作用是告诉解释器后面的一串是原生字符串,按照字面意思解释即可。如:

s1 = r'n.*'
print(s1) 

它告诉编译器s串第一个字符是,第二个字符是n.打印的结果就是它本身:

n.*

而如果不带前缀字符r,即:

s2 = 'n.*'
print(s2)

解释器认为前两个字符n为转义字符,一个新行的意思,打印结果为一个换行加.*,如下所示:


.*

Q2 什么是一个原子操作?

微观世界中,如果定义原子是组成事物的最基本单元,那么就可理解为原子不能再分了。同理此处,正则的原子操作是指不能再被分割的正则表达式操作。

如正则中的+指前面的一个原子操作出现至少1次。例如:66+表示第一个字符为6,第二个字符6和第三个字符+联合起来表示至少出现1次字符6,因此综合起来至少要有2个6紧邻的串才能满足此正则表达式(下面会详细讲到)。

w+表示字母数字下划线中的任意一个字符(w指代的)至少出现1次,那么w就是一个原子操作。

因此,普通字符是原子,正则中的通用字符(下面会讲到)也是原子。大家记住原子这个概念。

Q3 怎么理解正则中的转义?

正则世界中,重新定义了几个新的转义字符。

一个转义字符+一个字符,转义后会改变原字符的意义,它不再是它,而是赋予一个新的含义。

例如,w本身就是一个英文字符w,没有其他任何含义。但是,前面加一个转义字符 后,含义发生重大改变,w它不再是w,而是要与w连在一起,被解释器解释为匹配以下字符集合中的任意一个:

pat = 'w'

等于:

pat = '[0123456789
      AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz
      _]'

即匹配数字、大小写字母和下划线_字符集合中的任意一个。

你看,一个通用转义字符w直接就指代上面这一大串,写法多么简便,同时在正则的世界里又经常被用到,故被称为:通用正则字符

类似的通用正则字符还有几个,下面也会讲到。做一件事前,把规则弄清,触类旁通,相信大家理解其他几个也没问题。

3 掌握最常用规则

为了更清晰的展示,咱们只涉及最常用的规则,一来缩短篇幅,二来降低大家学习曲线,三来一类问题掌握一个,触类旁通即可。

情况1:最普通查找

最普通查找就是需要找啥就写啥,没有使用正则的规则。如下是关于小说《灿烂千阳》中的一段话,从中找出单词friendship,可能出现多次:

s = """
# Mariam is only fifteen 
# when she is sent to Kabul to marry the troubled and bitter Rasheed,
# who is thirty years her senior. 
# Nearly two decades later, 
# in a climate of growing unrest, tragedy strikes fifteen-year-old Laila, 
# who must leave her home and join Mariam's unhappy household. 
# Laila and Mariam are to find consolation in each other, 
# their friendship to grow as deep as the bond between sisters, 
# as strong as the ties between mother and daughter. 
# With the passing of time comes Taliban rule over Afghanistan, 
# the streets of Kabul loud with the sound of gunfire and bombs, 
# life a desperate struggle against starvation, brutality and fear, 
# the women's endurance tested beyond their worst imaginings. 
# Yet love can move a person to act in unexpected ways, 
# lead them to overcome the most daunting obstacles with a startling heroism. 
# In the end it is love that triumphs over death and destruction. 
# A Thousand Splendid Suns is an unforgettable portrait of a wounded country and
#  a deeply moving story of family and friendship. 
#  It is a beautiful, heart-wrenching story of an unforgiving time, 
#  an unlikely bond and an indestructible love.
"""

使用正则前,先导入re模块,再定义正则表达式,然后使用findall方法找出所有匹配

import re
pat = 'friendship'
result = re.findall(pat,s)
print(result) 

# 共找到两处:
# ['friendship', 'friendship']

以上就是使用正则的最普通例子。如果要找出前缀为grow的单词,比如可能为grows, growing 等,最普通查找实现起来就不方便。

然而,借助于下面介绍的元字符、通用字符和捕获组合起来,便能应对解决复杂的匹配查找问题。

情况2:使用通用字符

在正则的世界里,通用字符指帮助我们更加简便的写出匹配规则的字符。

如上面文字,下面正则匹配串能找出以d开始,[a-z]表示的任意一个小写英文字符,{7}表示小写英文字符出现7次(下面情况3会说到),也就是匹配出来的子串长度为1+7=8:

pat = 'd[a-z]{7}'
result = re.findall(pat,s)

匹配结果为:

['daughter''desperat''daunting''destruct''destruct']

同理,模式串pat = 'd[a-z]{10}'匹配的结果为:

['destruction''destructibl']

模式串pat = 'd[a-z]{11}'匹配的结果为:

'destructible']

你看,通用字符[a-z]使用真方便,5个字符一下就表达了所有26个小写的字符,但是注意[a-z]匹配26个小写字符的任意一个.

类似功能的通用字符还包括:

[A-Z]  匹配大写英文字母
[0-9]  匹配一个0-9之间的数字

还有更加强大的通用字符:

s  匹配空白字符,如n t b等
w  匹配任意字母、数字、下划线 
d  匹配十进制数字0-9

而S, W, D 分别对应 s, w, d匹配字符集的补集,例如S 的意思是匹配 s 以外的其他任意字符。

情况3:使用元字符

的含义大家不妨理解为用来描述它后面事物的类,如元类用来创建描述类的类,元模型描述一个模型的模型,因此推而广之,元字符用来描述字符的字符。

理解以上后,你再看正则中使用最普遍的一个元字符 +,它是用来描述前面一个原子出现次数的字符,表示前一个原子出现1次或多次都可。

例如,在寻找手机靓号时,正则表达式66+,表示前一个原子6至少出现1次,因此连上第一个6,表示电话号码中至少有两个66紧邻。因此,电话号码1861265216617566665656都满足要求,而号码18616161616不符合要求。

类似功能的元字符,还包括如下。功能相似,不再赘述:

前面的原子重复0次、1次、多次 
? 前面的原子重复0次或者1次 
前面的原子重复1次或多次
{n} 前面的原子出现了 n 次
{n,} 前面的原子至少出现 n 次
{n,m} 前面的原子出现次数介于 n-m 之间

4 有个棘手的场景

了解以上规则后,我们能去完成很多匹配任务,比如一些字符串匹配任务;查找某个手机号是不是靓号;找到文字中出现某个模式的所有地方。

但是,使用正则还会经常遇到的一大场景。试想,从一个文件里提取出所有如下格式的链接,并全部导出来:

https://github.com/jackzhenguo/python-small-examples

https://gitbook.cn/gitchat/column/5e37978dec8d9033cf916b5d

截止目前,我们还不能完成这样的匹配任务。鉴于这种匹配任务确实很常见,因此你很有必要学会下面这项技能。

5 学会提取子串的技能

今天以我写过的《Python 60天》专栏中的一段文字,提取出里面的链接为例,阐述提取子串的实用性。

先贴上文字(有删减改动),将这段文字赋值给变量 urls

urls = """
基于 Python 的包更是枝繁叶茂,遍地开花,“Tiobe 编程语言排行榜”最新统计显示 Python 是增长最快的语言。

![image-20200131192231967](https://images.gitbook.cn/2020-02-05-014719.png)

接下来,与大家,还有远在美国做 AI 博士后研究的 Alicia,一起开始我们的 60 天 Python 探索之旅吧。

所有的这些考虑,都是为了让大家在短时间内掌握 Python 技术栈,多一个生存的本领。拿到理想的 Offer 后,早日过上自己想要的生活。

让我们开始吧。

如下,按照是否为静态/动态语言,弱类型/强类型两个维度,

总结常用的语言分类。

![image-20200205155429583](https://images.gitbook.cn/2020-02-05-080211.png) ### 四大基本语法
"""

你可能很快写出如下的正则表达式:

# 元字符.表示匹配除n字符外的任意一个字符
# 元字符*表示匹配前面一个原子0次或多次
pat = r'https:.*' 

然后导入re模块,使用findall方法找出所有匹配:

import re
result = re.findall(pat,urls)
print(result)

运行结果显示如下,观察发现2个匹配,但是每个匹配链接都包括冗余字符,因此匹配错误:

['https://images.gitbook.cn
/2020-02-05-014719.png)'
,

'https://images.gitbook.cn
/2020-02-05-080211.png) ### 四大基本语法'
]

我们再稍微优化原正则表达式为:

# 添加 ) 表示待匹配子串以右括号结尾
pat = r'https:.*)'

打印结果显示如下,结果确实好一点,但是依然包括右括号,结果还是错误的:

['https://images.gitbook.cn/
2020-02-05-014719.png)'


'https://images.gitbook.cn/
2020-02-05-080211.png)'
]

所以掌握提取子串的技能就很重要,实现提取子串也很简单,只需把想要返回的子串加上一对括号就行,如下所示:

# 把想要返回的子串外面添加一对括号

pat = r'(https:.*))'

此时返回结果完全正确,无任何多余字符。想要返回的子串外面添加一对括号还有个专业叫法:捕获分组

6 使用捕获的注意事项

捕获功能非常实用,使用它需要区分一点,贪婪捕获和非贪婪捕获。前者指在满足匹配模式前提下,返回包括尽可能多的字符匹配模式;后者指满足匹配条件下,尽可能少的捕获。

我们伪造一个理想状况下的案例:

htmlContent = """
        <div><div><h2>这是二级标题</h2></div><div><p> 这是一个段落>/p></div></div>
"""

贪心捕获使用(.*),如下所示:

pat = r"<div>(.*)</div>"

result = re.findall(pat,htmlContent)

结果为如下,尽可能长的捕获,而不是遇到第一个</div>时就终止:

['<div><h2>这是二级标题</h2></div><div><p> 这是一个段落>/p></div>']

而非贪心捕获的正则表达式为<div>(.*?)</div>",如下:

pat = r"<div>(.*?)</div>"

result = re.findall(pat,htmlContent)

print(result)

结果为两个元素,遇到第一个</div>时终止,然后继续捕获出第二子串:

['<div><h2>这是二级标题</h2>', 
  '<p> 这是一个段落>/p>']

以上例子仅仅用作演示两者区别,实际的html结构含有换行符等,环境比上面要复杂的多,贪心和非贪心捕获的写法可能不会导致结果不同,但是我们依然需要理解它们的区别。

以上就是正则使用需要掌握的主要知识,整篇文章的结构总结如下:

  • 1 学习正则的价值

  • 2 正则学习前的几个准备

    • Q1 字符 `r`是干啥的?

    • Q2 什么是一个原子操作?

    • Q3 怎么理解正则中的转义?

  • 3 掌握最常用规则

    • 情况1:最普通查找

    • 情况2:使用通用字符

    • 情况3:使用元字符

  • 4 有个棘手的场景

  • 5 学会提取子串的技能

  • 6 使用捕获的注意事项

掌握以上这些正则知识后,相信就能明白主要的正则原理了。具体到有些细节时大家可参考外部的正则可视化工具和检验工具,来验证一下自己写的正则表达式就行。


近期文章

[更新] Python网络爬虫与文本数据分析 
tidytext | 耳目一新的R-style文本分析库
reticulate包 | 在Rmarkdown中调用Python代码
rpy2库 | 在jupyter中调用R语言代码
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
七夕礼物 | 全网最火的钉子绕线图制作教程
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用
plotnine: Python版的ggplot2作图库
小案例: Pandas的apply方法  
stylecloud:简洁易用的词云库 
用Python绘制近20年地方财政收入变迁史视频  
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G  

    分享”和“在看”是更好的支持!


发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: