省时省力！Python正则表达式实战教程

省时省力！Python正则表达式实战教程

正则表达式是处理文本的有力工具，可以用于数据清洗、数据提取、文本匹配、模式匹配等领域。在大数据分析、文本挖掘、日志处理等领域中广泛应用。Python作为一种脚本语言，具有丰富的正则表达式功能，可以快捷高效地完成大量的文本处理任务。本文将介绍Python正则表达式的相关知识和实际案例，为初学者提供参考。

1. 基础语法

正则表达式是一种特殊的字符串模式，可以匹配文本中的特定字符、特定位置、特定数量等。其基本语法如下：

|模式|描述|
|---|---|
|.|匹配任意单个字符，除换行符外。|
|\w|匹配字母、数字、下划线。|
|\W|与\w相反，匹配除字母、数字、下划线以外的字符。|
|\d|匹配数字。|
|\D|与\d相反，匹配除数字以外的字符。|
|\s|匹配空格、制表符和换行符。|
|\S|与\s相反，匹配除空格、制表符和换行符以外的字符。|
|^|匹配字符串开头。|
|$|匹配字符串结尾。|
|[]|表示可选字符集，匹配其中任意一个字符。|
|[^]|表示不可选字符集，匹配未出现在其中的任意一个字符。|
|*|匹配前面的字符0次或多次。|
|+|匹配前面的字符1次或多次。|
|?|匹配前面的字符0次或1次。|
|{n}|匹配前面的字符n次。|
|{n,}|匹配前面的字符至少n次。|
|{n,m}|匹配前面的字符至少n次，至多m次。|

其中，点号(.)和星号(*)是两个最常用的元字符，可以匹配任意字符和任意数量的字符。例如，用.*可以匹配任意长度的字符串。

2. 实际案例

现在，我们用上述语法来解决一个实际问题：给定一个URL链接，如何从中提取出域名和网页标题？

首先，我们需要利用正则表达式匹配出URL中的域名。域名的格式通常为http://www.example.com，可以使用以下正则表达式：

```python
import re

pattern = r'^https?://(www\.)?([\w-]+(\.[\w-]+)+)([\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?$'
url = 'https://www.example.com/path/to/page.html'

m = re.match(pattern, url)
if m:
    domain = m.group(2)
    print(domain)
```

输出：example.com

其中，^和$是分别匹配字符串开头和结尾的元字符，http和https两种协议通过?表示可选，www部分用括号()表示可选，并且通过?转义。([\w-]+(\.[\w-]+)+)表示匹配一个或多个字母、数字、下划线或短横线，紧跟着一个或多个由点号连接的字母、数字、下划线或短横线。([\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?表示匹配一个或多个由特定符号组成的字符串，该字符串后面跟着一个可选的由特定符号和字母、数字、下划线或短横线组成的字符串。

接下来，我们需要利用正则表达式匹配出网页标题。网页标题通常位于和标签之间，可以使用以下正则表达式：

```python
import requests

url = 'https://www.example.com/path/to/page.html'
r = requests.get(url)
pattern = r'(.*?)'
m = re.search(pattern, r.text)
if m:
    title = m.group(1)
    print(title)
```

输出：Example Website

其中，(.*?)表示使用非贪婪模式匹配任意字符，直到下一个标签出现为止。

综上，利用Python的正则表达式可以轻松地从文本中提取所需信息，极大地方便了文本处理的工作。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

省时省力！Python正则表达式实战教程