代码收藏家技术教程 2024-09-08

Python通配符使用详解

Python 通配符

一、通配符的概念

二、Python中的通配符使用

1. glob模块

示例：

2. 正则表达式中的通配符

示例：

三、通配符与正则表达式的区别

四、通配符的进阶使用

1. 排除特定模式的匹配

示例：

2. 自定义通配符函数

示例：

五、正则表达式的进阶使用

1. 分组与捕获

示例：

2. 贪婪与非贪婪匹配

示例：

3. 前瞻断言与后瞻断言

示例：

六、总结与最佳实践

Python 通配符

一、通配符的概念

在Python中，虽然并不像某些命令行工具或正则表达式中那样直接支持通配符，但Python的glob模块提供了一种在文件路径名中使用通配符进行匹配的方式。通配符主要用于模式匹配，如在文件搜索、过滤等场景中。

二、Python中的通配符使用

1. glob模块

glob模块是Python的一个内置模块，它提供了在目录中使用通配符搜索创建文件列表的函数。这个模块最常用的函数就是glob()。

示例：

import glob

# 查找当前目录下所有以.txt结尾的文件
for filename in glob.glob('*.txt'):
    print(filename)

# 查找当前目录下所有子目录中的.py文件
for filename in glob.glob('**/*.py', recursive=True):
    print(filename)

在上面的示例中，*是一个通配符，表示任意数量的任意字符（不包括路径分隔符）。在第二个示例中，**表示任意多的目录，这是Python 3.5之后添加的一个新特性。

2. 正则表达式中的通配符

虽然Python本身并不直接支持通配符，但Python的re模块支持正则表达式，正则表达式中也有一些类似通配符的元字符。

.：匹配任意字符（除了换行符）

*：匹配前面的子表达式零次或多次

?：匹配前面的子表达式零次或一次

+：匹配前面的子表达式一次或多次

{n}：n是一个非负整数。匹配确定的n次

{n,}：n是一个非负整数。至少匹配n次

{n,m}：m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次

这些元字符在正则表达式中扮演着通配符的角色，允许我们进行更复杂的模式匹配。

示例：

import re

# 查找包含连续三个数字的字符串
pattern = r'\d{3}'
match = re.search(pattern, 'abc123def456')
if match:
    print(match.group())  # 输出: 123

在这个示例中，\d是一个特殊字符，表示任意数字，而{3}则是一个量词，表示前面的子表达式（即\d）必须恰好出现3次。

三、通配符与正则表达式的区别

虽然通配符和正则表达式在某些方面有相似之处，如都用于模式匹配，但它们之间存在一些重要的区别。

用途：通配符主要用于文件和目录的路径名匹配，而正则表达式则更为强大，可以用于字符串的搜索、匹配和替换等更复杂的文本处理任务。
语法：通配符的语法相对简单，主要使用*、?等字符进行匹配。而正则表达式的语法则更为丰富和复杂，包括各种特殊字符和量词等。
精确性：由于正则表达式的语法更为复杂，因此它可以实现更精确的模式匹配。例如，正则表达式可以匹配特定位置的字符、匹配指定数量的字符等，而通配符则无法实现这些功能。
性能：在处理大量文件或字符串时，正则表达式的性能可能会受到影响，因为它需要解析更复杂的模式。而通配符通常只用于文件和目录的匹配，因此性能上可能更优。

四、通配符的进阶使用

1. 排除特定模式的匹配

虽然glob模块本身没有直接提供排除特定模式的功能，但我们可以通过一些技巧来实现。例如，你可以首先获取所有匹配的文件，然后从中筛选出不符合排除条件的文件。

示例：

import glob

# 获取当前目录下所有文件，除了.bak文件
all_files = glob.glob('*')
bak_files = glob.glob('*.bak')
other_files = [f for f in all_files if f not in bak_files]

for filename in other_files:
    print(filename)

2. 自定义通配符函数

如果你需要更复杂的通配符匹配逻辑，可以编写自定义的函数来处理。虽然这可能会比使用glob模块更复杂，但它提供了更大的灵活性。

示例：

import os

def custom_glob(pattern, directory='.'):
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file_matches_pattern(file, pattern):
                yield os.path.join(root, file)

def file_matches_pattern(filename, pattern):
    # 在这里实现你的自定义匹配逻辑
    # 例如，只匹配文件名长度大于5的.txt文件
    return len(filename) > 5 and filename.endswith('.txt')

# 使用自定义通配符函数
for filename in custom_glob('*.txt'):
    print(filename)

五、正则表达式的进阶使用

1. 分组与捕获

正则表达式中的括号可以用来分组和捕获匹配的子串。捕获的子串可以通过索引或命名来引用。

示例：

import re

# 匹配形如'name:John'的字符串，并捕获名字
pattern = r'name:(\w+)'
match = re.search(pattern, 'name:John age:30')
if match:
    print(match.group(1))  # 输出: John

2. 贪婪与非贪婪匹配

正则表达式中的量词默认是贪婪的，即尽可能多地匹配字符。但有时候我们可能需要非贪婪匹配，即尽可能少地匹配字符。这可以通过在量词后面添加?来实现。

示例：

import re

# 贪婪匹配
pattern_greedy = r'<.*>'
match_greedy = re.search(pattern_greedy, '<a> <b>')
print(match_greedy.group())  # 输出: <a> <b>

# 非贪婪匹配
pattern_non_greedy = r'<.*?>'
match_non_greedy = re.search(pattern_non_greedy, '<a> <b>')
print(match_non_greedy.group())  # 输出: <a>

3. 前瞻断言与后瞻断言

正则表达式还支持前瞻断言和后瞻断言，用于在匹配过程中检查某个条件是否满足，但不消耗任何字符。这可以通过(?=...)（前瞻断言）和(?!...)（负前瞻断言）来实现。

示例：

import re

# 匹配不以'abc'结尾的单词
pattern = r'\b\w+(?!abc)\b'
matches = re.findall(pattern, 'hello world abcdef notabc')
print(matches)  # 输出: ['hello', 'world', 'notabc']

六、总结与最佳实践

在运用通配符和正则表达式时，深入理解它们的特性和限制是至关重要的。以下是一些最佳实践建议：

明确需求：首先，清晰界定你的匹配需求，随后选择最合适的工具和方法。
保持简洁：尽量编写清晰简洁的模式，避免过度复杂的表达式。
测试与验证：在应用于实际数据之前，请确保对你的模式进行充分的测试和验证。
优化性能：当处理大量数据时，请注意优化你的代码和模式以提升性能。
添加文档与注释：为你的代码和模式添加必要的文档和注释，以便于其他人理解和维护。

遵循这些最佳实践建议，你将能够更高效地使用Python中的通配符和正则表达式来处理各种模式匹配和文本处理任务。

虽然Python不像某些工具那样直接支持通配符，但通过内置的glob模块和re模块，我们可以实现类似的功能。glob模块主要用于文件和目录的路径名匹配，而re模块则支持更为复杂的文本处理任务。在使用时，请根据具体需求选择合适的工具和方法。同时，我们也需要了解通配符和正则表达式之间的区别与联系，以更好地利用它们进行模式匹配和文本处理。

作者：Python老吕

物联沃分享整理
物联沃-IOTWORD物联网 » Python通配符使用详解

代码收藏家普通

分享到：

Python 通配符