代码收藏家技术教程 2025-02-24

Python 多线程 vs 多进程：到底该用哪个？

1. 引言

在 Python 开发中，多线程（multithreading） 和 多进程（multiprocessing） 是并发编程的两种主要方式。许多开发者在面对计算密集型或 I/O 密集型任务时，常常不清楚该选择哪种方式。本篇文章将深入解析 Python 的多线程和多进程，分析其区别、适用场景，并提供代码示例。

2. 线程与进程的基本概念

什么是线程？

线程是进程中的最小执行单元，同一进程内的多个线程共享进程的内存空间。多线程编程的特点是轻量级，线程间切换开销较小，适合 I/O 密集型任务。

什么是进程？

进程是操作系统分配资源的最小单位，每个进程都有自己独立的内存空间，进程间不会共享数据。多进程编程适合计算密集型任务，能更好地利用多核 CPU。

Python GIL（全局解释器锁）

Python 的 GIL（Global Interpreter Lock） 限制了同一时间只能有一个线程执行 Python 字节码，即便在多核 CPU 上，Python 多线程仍然无法真正实现并行计算。因此，多线程在 Python 主要用于 I/O 密集型任务，而多进程更适用于计算密集型任务。

3. 多线程（threading）

Python 提供了 threading 模块用于实现多线程编程。

适用场景

I/O 密集型任务（如网络请求、文件读写、数据库查询等）

需要多个任务同时进行，但不涉及大量计算

示例代码：多线程下载多个网页

import threading
import requests

def download(url):
    response = requests.get(url)
    print(f"Downloaded {url}: {len(response.content)} bytes")

urls = [
    "https://www.python.org",
    "https://www.github.com",
    "https://www.stackoverflow.com"
]

threads = []
for url in urls:
    thread = threading.Thread(target=download, args=(url,))
    thread.start()
    threads.append(thread)

for thread in threads:
    thread.join()

代码解析：

threading.Thread(target=download, args=(url,)) 创建一个新线程来执行 download 函数。

start() 启动线程。

join() 等待所有线程执行完毕。

缺点：由于 GIL 限制，即使有多个线程，它们仍然是串行执行 Python 代码，无法充分利用多核 CPU。

4. 多进程（multiprocessing）

Python 提供了 multiprocessing 模块用于多进程编程，每个进程都有独立的 Python 解释器实例，不受 GIL 限制。

适用场景

计算密集型任务（如数学计算、图像处理、机器学习训练等）

需要充分利用 CPU 多核性能

示例代码：多进程计算大整数的平方

import multiprocessing

def square(n):
    return n * n

if __name__ == "__main__":
    numbers = [1, 2, 3, 4, 5]
    with multiprocessing.Pool(processes=3) as pool:
        results = pool.map(square, numbers)
    print(results)

代码解析：

multiprocessing.Pool(processes=3) 创建一个进程池，最多允许 3 个进程同时运行。

map() 方法将 square 函数并行地应用于 numbers 列表中的每个元素。

if __name__ == "__main__" 避免在 Windows 下 multiprocessing 发生无限递归。

优点：

不受 GIL 限制，可以利用多核 CPU 进行真正的并行计算。

缺点：

进程间的通信和切换开销较大，创建进程比创建线程消耗更多的资源。

5. 多线程 vs 多进程：对比分析

特性	多线程（threading）	多进程（multiprocessing）
适用任务	I/O 密集型任务	计算密集型任务
GIL 影响	受 GIL 影响，无法并行计算	不受 GIL 影响，可并行计算
内存占用	共享进程内存，消耗较少	进程独立，内存开销大
切换开销	线程切换成本低	进程切换成本高
数据共享	易于共享数据（共享变量）	需通过 IPC（管道、队列等）共享数据