Python中defaultdict数据结构的用法详解：collections模块指南

在 Python 中，collections 模块提供了许多强大的数据结构，能够简化开发中的常见任务。defaultdict 是其中之一，它是 dict 的一个子类，扩展了字典的功能，提供了默认值的机制，避免了许多常见的错误。本文将详细介绍如何使用 defaultdict，并通过实际示例帮助大家更好地理解它的使用场景和优势。

一、什么是 `defaultdict`？

defaultdict 是 Python 标准库 collections 模块中的一个类，它与普通的 dict 类似，但提供了一个额外的功能：为字典的缺失键提供默认值。使用 defaultdict，可以为字典指定一个工厂函数，当访问一个不存在的键时，会自动生成一个默认值，而不是抛出 KeyError 异常。

基本语法

defaultdict 的基本语法如下：

from collections import defaultdict

defaultdict(default_factory)

default_factory：是一个可调用对象（如函数、类等），用于生成缺失键的默认值。如果未提供，defaultdict 会默认使用 None。

二、`defaultdict` 的工作原理

与普通字典不同，当通过 defaultdict 访问一个不存在的键时，defaultdict 会自动调用 default_factory 来生成默认值，并将其赋给该键。这样，不需要先检查键是否存在，避免了常见的错误处理模式。

例如：

from collections import defaultdict

# 使用 int 作为 default_factory，int() 默认返回 0
dd = defaultdict(int)
print(dd['missing_key'])  # 输出 0

在上面例子中，dd['missing_key'] 没有抛出 KeyError，而是返回了 int() 的结果，即 0。

三、`defaultdict` 的常见用法

1. 计数器（使用 `int` 作为默认工厂）

一个非常常见的应用场景是统计某些元素出现的次数。例如，统计文本中每个单词的出现频率：

from collections import defaultdict

# 创建一个 defaultdict，默认值为 int 类型（即 0）
word_count = defaultdict(int)

text = "apple banana apple orange apple banana"
for word in text.split():
    word_count[word] += 1

print(word_count)

输出：

defaultdict(<class 'int'>, {'apple': 3, 'banana': 2, 'orange': 1})

在这个例子中，word_count 自动为每个单词初始化计数器，如果单词出现过，就增加计数。如果是新单词，defaultdict 会为其创建一个默认值 0。

2. 分组数据（使用 `list` 作为默认工厂）

defaultdict 还常用于将数据分组。通过使用 list 作为默认工厂，可以将元素按照某种规则分组。例如，将一个列表中的元素按照它们的长度分组：

from collections import defaultdict

# 创建一个 defaultdict，默认值为 list 类型（即 []）
grouped_words = defaultdict(list)

words = ["apple", "banana", "pear", "plum", "grape"]
for word in words:
    grouped_words[len(word)].append(word)

print(grouped_words)

输出：

defaultdict(<class 'list'>, {5: ['apple', 'grape'], 6: ['banana'], 4: ['pear', 'plum']})

在这个例子中，单词根据其长度分组，defaultdict 为每个长度自动创建一个空的列表（如果该长度之前没有出现过）。

3. 使用自定义工厂函数

除了常用的 int 和 list，还可以使用自定义的工厂函数来生成默认值。例如，假设你需要记录一个字典，其中每个键的值都是一个集合，用于收集唯一元素：

from collections import defaultdict

# 自定义工厂函数，返回一个空集合
def default_factory():
    return set()

dd = defaultdict(default_factory)

dd['a'].add(1)
dd['a'].add(2)
dd['b'].add(3)

print(dd)

输出：

defaultdict(<function default_factory at 0x7f3f64fca790>, {'a': {1, 2}, 'b': {3}})

在这个示例中，通过定义一个工厂函数 default_factory 来返回一个空集合，并将其作为 defaultdict 的默认值。当对缺失的键进行操作时，defaultdict 会自动生成一个空集合。

4. 嵌套结构（多个层级的 `defaultdict`）

可以使用多个层级的 defaultdict 来处理更复杂的数据结构。例如，创建一个字典，其中每个键都映射到另一个 defaultdict，实现多层次的分组或统计：

from collections import defaultdict

# 创建一个嵌套的 defaultdict
dd = defaultdict(lambda: defaultdict(int))

dd['fruit']['apple'] += 1
dd['fruit']['banana'] += 2
dd['vegetable']['carrot'] += 3

print(dd)

输出：

defaultdict(<function <lambda> at 0x7f3f64fca940>, {'fruit': defaultdict(<class 'int'>, {'apple': 1, 'banana': 2}), 'vegetable': defaultdict(<class 'int'>, {'carrot': 3})})

在这个例子中，dd 是一个二层嵌套的 defaultdict，用于存储水果和蔬菜的统计信息。

四、`defaultdict` 与普通 `dict` 的区别

defaultdict 和普通字典最显著的区别在于默认值机制。普通字典会在你访问一个不存在的键时抛出 KeyError 异常，而 defaultdict 会自动为该键创建一个默认值。

普通字典示例

# 普通字典
d = {}
print(d['missing_key'])  # 会抛出 KeyError

`defaultdict` 示例

from collections import defaultdict

# defaultdict
dd = defaultdict(int)
print(dd['missing_key'])  # 输出 0

defaultdict 使得代码更加简洁，尤其在你需要处理缺失键时。

五、总结

defaultdict 是 Python 中非常有用的一个数据结构，其扩展了 dict 的功能，通过为缺失的键提供默认值，避免了常见的错误处理模式。通过使用 defaultdict，可以更方便地进行数据分组、计数和自定义复杂的数据结构。

常见应用场景

计数器：使用 int 作为默认工厂，自动统计元素出现的次数。

分组：使用 list 或 set 作为默认工厂，自动将数据按某种规则分组。

自定义数据结构：通过自定义工厂函数，创建复杂的数据结构。

总之，defaultdict 是一个非常强大的工具，能够帮助我们更简洁地处理缺失键的情况，减少不必要的错误检查。掌握并灵活使用它，可以大大提高编程效率。🚀

📌 有什么问题和经验想分享？欢迎在评论区交流、点赞、收藏、关注！ 🎯

作者：莫比乌斯之梦

物联沃分享整理
物联沃-IOTWORD物联网 » Python中defaultdict数据结构的用法详解：collections模块指南

代码收藏家普通

分享到：

一、什么是 defaultdict？

基本语法

二、defaultdict 的工作原理

三、defaultdict 的常见用法

1. 计数器（使用 int 作为默认工厂）

2. 分组数据（使用 list 作为默认工厂）

3. 使用自定义工厂函数

4. 嵌套结构（多个层级的 defaultdict）

四、defaultdict 与普通 dict 的区别