代码收藏家技术教程 2024-10-11

Python多线程与多进程深度解析

一、什么是多线程与多进程

1. 多线程（Multithreading）

2. 多进程（Multiprocessing）

二、Python 中的多线程

1. 使用 threading 模块

2. GIL 与 Python 多线程的局限

三、Python 中的多进程

1. 使用 multiprocessing 模块

2. 多进程的优势

3. 进程间通信

四、如何选择多线程还是多进程？

五、异步编程的替代方案

六、总结

在开发过程中，提升程序的并发性能是开发者常常面临的挑战。为此，Python 提供了多线程和多进程两种并发编程方式，来帮助我们充分利用系统资源，提高程序的执行效率。本文将详细介绍 Python 中的多线程和多进程的基本概念、适用场景以及如何在实际应用中进行选择。

一、什么是多线程与多进程

1. 多线程（Multithreading）

线程是进程中的一个执行单元。一个进程可以包含多个线程，它们共享同一个内存空间，共同完成任务。

在 Python 中，多线程通常用于 I/O 密集型任务（例如网络请求、文件读写等），因为这些任务往往会因为 I/O 操作而被阻塞。通过多线程，我们可以让程序在等待 I/O 操作时继续处理其他任务，从而提升程序的整体响应速度。

2. 多进程（Multiprocessing）

进程是操作系统中资源分配的最小单位，每个进程有自己独立的内存空间。多进程意味着同时运行多个进程，它们之间互不干扰，互相独立。

多进程更适合 CPU 密集型任务（如大规模数据计算、图像处理等），因为 Python 的全局解释器锁（GIL）限制了多线程在多核 CPU 上的性能发挥，而多进程可以有效利用多个 CPU 核心来并行处理任务。

二、Python 中的多线程

Python 提供了 threading 模块来创建和管理多线程。下面是一个简单的多线程示例：

1. 使用 `threading` 模块

import threading
import time

def worker(n):
    print(f"Thread {n} started")
    time.sleep(2)
    print(f"Thread {n} finished")

# 创建多个线程
threads = []
for i in range(5):
    thread = threading.Thread(target=worker, args=(i,))
    threads.append(thread)
    thread.start()

# 等待所有线程结束
for thread in threads:
    thread.join()

print("All threads finished")

在这个示例中，我们创建了 5 个线程，每个线程都会执行 worker 函数。程序在所有线程执行完毕后才会继续往下执行。

2. GIL 与 Python 多线程的局限

由于 Python 的全局解释器锁（GIL），Python 多线程在 CPU 密集型任务中无法充分利用多核 CPU 的优势。GIL 使得在任一时刻只有一个线程能执行 Python 字节码，这意味着多线程在处理 CPU 密集型任务时，并不会带来性能上的提升。

因此，多线程适合用于 I/O 密集型任务，如网络请求、文件读写等，而不适合用于需要大量计算的 CPU 密集型任务。

三、Python 中的多进程

Python 的 multiprocessing 模块允许我们通过多进程的方式执行并发任务。与多线程不同，多进程中的每个进程都有独立的内存空间，这使得它在 CPU 密集型任务中能够充分利用多核 CPU 的优势。

1. 使用 `multiprocessing` 模块

import multiprocessing
import time

def worker(n):
    print(f"Process {n} started")
    time.sleep(2)
    print(f"Process {n} finished")

if __name__ == '__main__':
    # 创建多个进程
    processes = []
    for i in range(5):
        process = multiprocessing.Process(target=worker, args=(i,))
        processes.append(process)
        process.start()

    # 等待所有进程结束
    for process in processes:
        process.join()

    print("All processes finished")

在这个例子中，我们使用 multiprocessing.Process 来创建独立的进程。每个进程都会执行 worker 函数，并且彼此之间不会共享内存，独立运行。

2. 多进程的优势

由于每个进程都有独立的内存空间，因此多进程可以充分利用多核 CPU 的优势。在处理 CPU 密集型任务时，多进程通常会比多线程带来更好的性能提升。此外，多进程不会受到 GIL 的限制，适合需要并行处理大量计算的场景。

3. 进程间通信

尽管多进程有独立的内存空间，有时我们仍需要在进程间共享数据。Python 提供了多种方式来实现进程间通信（IPC），例如使用 Queue、Pipe 等。

一个简单的进程间通信示例：

from multiprocessing import Process, Queue

def worker(q):
    q.put("Hello from the worker process")

if __name__ == '__main__':
    q = Queue()
    p = Process(target=worker, args=(q,))
    p.start()
    print(q.get())  # 从队列中获取数据
    p.join()

在这个例子中，我们使用 Queue 实现了父进程和子进程之间的数据通信。