代码收藏家技术教程 2024-12-01

【Python】随机数种子（random seed）的设置

随机数种子的讲解：原理、应用与实例

在编程中，随机数是一项非常重要的功能，广泛应用于科学计算、数据处理、机器学习以及游戏开发等领域。然而，随机数并不是真正的“随机”，而是通过特定的算法生成的“伪随机数”（Pseudo Random Number）。为了让程序在特定情况下产生一致的随机数，我们可以使用**随机数种子(Random Seed)**来控制随机数的生成过程。本文将深入讲解随机数种子的概念、原理及其应用，并通过实例演示如何设置随机数种子。

一、什么是随机数种子？

随机数种子（Seed）是伪随机数生成器的初始值。伪随机数是通过特定算法生成的，它们看似随机，但实际上是确定性的。如果伪随机数生成器的初始状态（种子）相同，那么每次生成的随机数序列也会完全相同。

简单来说，随机数种子是控制随机数生成的“开关”，设置种子后，程序中涉及随机数的行为变得“可控且可复现”。

为什么伪随机数是确定的？

伪随机数由数学公式或算法生成。

给定相同的输入条件（如种子值），算法会生成相同的输出随机数序列。

因此，通过控制种子，我们可以控制随机行为，确保实验的可复现性。

二、随机数种子的作用

1. 保证结果的可复现性

在许多实验中，尤其是机器学习或科学研究中，结果的可复现性至关重要。如果每次运行程序都生成不同的随机数，调试和对比实验会变得非常困难。通过设置随机数种子，可以确保每次运行程序时，随机操作的结果一致。

2. 调试更加方便

在代码中，如果某些操作依赖随机性（如随机初始化神经网络权重、数据集随机分割等），未设置随机数种子可能会导致每次运行结果不一致。通过设置种子，可以让程序在每次运行时保持相同的随机数序列，从而便于发现和解决问题。

3. 控制随机行为

在游戏开发或模拟实验中，有时需要生成“看似随机”的行为，但同时希望在特定条件下重现这些行为。设置随机数种子可以满足这一需求。

三、如何设置随机数种子？

Python 提供了多种随机数生成器，其中常见的有：

random 模块：标准库提供的随机数生成器，适用于简单场景。
numpy 的随机模块：用于科学计算。
深度学习框架的随机模块（如 PyTorch 和 TensorFlow）：用于控制训练过程中的随机性。

以下分别讲解它们的用法。

1. Python `random` 模块

random.seed() 用于设置随机数生成器的种子，确保每次运行生成相同的随机数序列。

示例：

import random

random.seed(42)  # 设置随机数种子
print(random.randint(1, 100))  # 输出固定，例如：81
print(random.random())         # 输出固定，例如：0.6394267984578837

# 再次设置相同种子，结果相同
random.seed(42)
print(random.randint(1, 100))  # 输出仍然是：81
print(random.random())         # 输出仍然是：0.6394267984578837

总结：只要种子固定，random 模块生成的随机数序列就完全一致。

2. NumPy 的随机模块

NumPy 提供了更强大的随机数功能，同样可以通过 numpy.random.seed() 设置种子。

示例：

import numpy as np

np.random.seed(42)  # 设置随机数种子
print(np.random.rand(3))  # 输出固定，例如：[0.37454012 0.95071431 0.73199394]

# 再次设置相同种子，结果相同
np.random.seed(42)
print(np.random.rand(3))  # 输出仍然是：[0.37454012 0.95071431 0.73199394]

3. PyTorch 的随机数种子

在深度学习中，随机性常用于神经网络权重初始化、数据增强等。PyTorch 提供了 torch.manual_seed() 来控制随机数的生成。

示例：

import torch

torch.manual_seed(42)  # 设置随机数种子
print(torch.randn(3))  # 输出固定，例如：tensor([ 0.3367,  0.1288,  0.2341])

# 再次设置相同种子，结果相同
torch.manual_seed(42)
print(torch.randn(3))  # 输出仍然是：tensor([ 0.3367,  0.1288,  0.2341])

注意：如果使用 GPU，还需设置：

torch.cuda.manual_seed(42)
torch.cuda.manual_seed_all(42)

四、结合代码的完整示例

以下是一个完整示例，展示如何通过随机数种子控制随机行为的复现性：

import random
import numpy as np
import torch

# 设置全局种子
manual_seed = random.randint(1, 10000)  # 随机生成一个种子
random.seed(manual_seed)                # 设置 Python 随机数种子
np.random.seed(manual_seed)             # 设置 NumPy 随机数种子
torch.manual_seed(manual_seed)          # 设置 PyTorch 随机数种子

# 示例1：随机整数
print(random.randint(1, 100))  # 结果固定
print(np.random.rand(3))       # 结果固定
print(torch.randn(3))          # 结果固定

# 示例2：使用相同种子生成一致结果
random.seed(manual_seed)
np.random.seed(manual_seed)
torch.manual_seed(manual_seed)

print(random.randint(1, 100))  # 结果仍固定
print(np.random.rand(3))       # 结果仍固定
print(torch.randn(3))          # 结果仍固定

五、注意事项

种子值的范围：
种子值通常为非负整数。过大的种子可能超出生成器的计算范围（如 32 位系统限制）。
影响范围：
random.seed() 仅影响 Python 的 random 模块，不会影响 NumPy 或 PyTorch 的随机数。
要同时控制多个模块的随机性，需要分别设置种子。
GPU 的随机性：
使用 GPU 时，某些操作可能仍有不可控的随机性（如非确定性的 CUDA 算法），需要额外设置 torch.backends.cudnn.deterministic = True。