Python中的正则表达式：一个完整的指南

Python中的正则表达式：一个完整的指南

正则表达式 (Regular Expression) 是一个强大的工具，它能够对字符串进行高效处理，适用于文本搜索、字符串匹配、数据清洗等应用场景。Python提供了re模块来支持正则表达式的操作。本文将详细介绍Python中的正则表达式的使用方法。

1. 基本语法

正则表达式通过一些特定的符号和组合来表示一组字符串的匹配规则。在Python中，我们可以使用re模块来创建正则表达式对象，然后使用这个对象对字符串进行匹配。

下面是一些常见的基本正则表达式语法：

- 字符匹配：使用普通字符表示匹配。
- 元字符：特殊字符，具有特殊意义。
- 元字符集合：用于匹配特定类别的字符。
- 量词：用于表示字符出现的次数。
- 分组：用于将多个字符组合在一起。

比如，可以使用以下正则表达式来匹配以'hello'开头的字符串：

```python
import re

str = 'hello, world!'
pattern = r'^hello'

match = re.match(pattern, str)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'^'是元字符，表示以开头的位置进行匹配。如果匹配成功，输出'Matched!'，否则输出'Not matched!'。

2. 字符匹配

字符匹配是最基本的正则表达式语法，它使用普通字符表示匹配。比如，可以使用以下正则表达式来匹配字符串中的数字字符：

```python
import re

str = 'abc123def'
pattern = r'\d'

match = re.search(pattern, str)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'\d'是元字符，表示匹配数字字符。如果字符串中存在数字字符，输出'Matched!'，否则输出'Not matched!'。

另外，正则表达式还支持使用'.'来匹配任意字符。比如，可以使用以下正则表达式来匹配以'h'开头、以'd'结尾的5个字符的字符串：

```python
import re

str = 'hello, world'
pattern = r'^h...d$'

match = re.match(pattern, str)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'^'和'$'表示匹配字符串的开头和结尾，'...'表示匹配任意3个字符。

3. 元字符

元字符是正则表达式中的特殊字符，具有特殊意义。以下是一些常用的元字符：

- '|'：表示"或"，匹配 '|' 左边或右边的字符。
- '()'：表示分组，用于将多个字符组合在一起。
- '[]'：表示字符集合，用于匹配一组字符中的任意一个。
- '-'：表示字符范围，表示匹配一个字符在范围内的任意字符。
- '^'：表示取反，用于匹配不在字符集合中的任意字符。
- '$'：表示匹配字符串结尾。
- '?'：表示前面的字符可选，匹配0个或1个。
- '*'：表示前面的字符0次或多次，匹配0个或多个。
- '+'：表示前面的字符1次或多次，匹配1个或多个。
- '{n}'：表示前面的字符出现n次。
- '{n,}'：表示前面的字符出现至少n次。
- '{n,m}'：表示前面的字符出现n到m次。

比如，可以使用以下正则表达式来匹配一个URL字符串：

```python
import re

url = 'https://www.google.com'
pattern = r'https?://(www\.)?([a-zA-Z0-9]+)\.com'

match = re.match(pattern, url)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'https?://'表示匹配'http://'或'https://'，'(www\.)?'表示匹配0个或1个'www.'，'[a-zA-Z0-9]+'表示匹配任意多个字母和数字字符。

4. 元字符集合

元字符集合用于匹配特定类别的字符。以下是一些常用的元字符集合：

- '\d'：匹配数字字符。
- '\D'：匹配非数字字符。
- '\w'：匹配字母、数字和下划线。
- '\W'：匹配非字母、数字和下划线。
- '\s'：匹配空白字符，包括空格、制表符、换行符等。
- '\S'：匹配非空白字符。

比如，可以使用以下正则表达式来匹配一个美国电话号码字符串：

```python
import re

phone_number = '1-555-123-4567'
pattern = r'^1?-?(\d{3})-?(\d{3})-?(\d{4})$'

match = re.match(pattern, phone_number)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'^'和'$'表示匹配字符串的开头和结尾，'\d{3}'表示匹配3个数字字符，'(\d{3})'表示将匹配的3个数字字符分为一组，方便提取电话号码中的区号、电话号码和分机号等信息。

5. 量词

量词用于表示字符出现的次数。以下是一些常用的量词：

- '?'：匹配0个或1个。
- '*'：匹配0个或多个。
- '+'：匹配1个或多个。
- '{n}'：匹配n次。
- '{n,}'：匹配至少n次。
- '{n,m}'：匹配n到m次。

比如，可以使用以下正则表达式来匹配一个IP地址字符串：

```python
import re

ip = '192.168.0.1'
pattern = r'^(\d{1,3}\.){3}\d{1,3}$'

match = re.match(pattern, ip)
if match:
    print('Matched!')
else:
    print('Not matched!')
```

其中，'(\d{1,3}\.){3}'表示匹配3个1到3位的数字字符和1个'.'字符，共计出现4次。

6. 分组

分组用于将多个字符组合在一起，方便提取匹配结果。以下是一些常见的分组语法：

- '()'：表示普通分组，用于将多个字符组合在一起。
- '(?:)'：表示非捕获分组，用于将多个字符组合在一起，但不捕获匹配结果。
- '(?P)'：表示命名分组，用于标记一个分组并为它命名，方便提取匹配结果。

比如，可以使用以下正则表达式来匹配一段HTML文本中的a标签：

```python
import re

html = 'Google'
pattern = r'(?P.*?)</a>'

match = re.search(pattern, html)
if match:
    print('URL:', match.group('url'))
    print('Title:', match.group('title'))
else:
    print('Not matched!')
```

其中，'(?P<url>.*?)'和'(?P<title>.*?)'是命名分组，分别匹配a标签的href属性和文本内容。

7. 总结

以上是Python中的正则表达式的基本语法和使用方法，正则表达式是一种十分强大的工具，掌握它可以极大地提升字符串处理的效率。需要注意的是，正则表达式的语法十分丰富和复杂，建议在使用时多参考官方文档和示例代码。
	</pre>
</div>

</body>
</html>
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python中的正则表达式：一个完整的指南