代码收藏家技术教程 2025-01-28

Python中的多线程与多进程指南大全

在Python中，进行性能优化时，我们常常会碰到需要同时执行多个任务的情况。这个时候，使用多线程或多进程技术可以显著提高程序的执行效率。然而，由于Python的全局解释器锁（GIL）的存在，多线程并不能在所有情况下提供预期的性能提升。本文将深入探讨Python中的多线程与多进程，分析它们的适用场景，并通过代码实例展示它们的正确使用方法。

1. Python中的多线程

1.1 多线程的基本概念

多线程是指在同一个进程中启动多个线程，线程之间共享内存和资源。由于线程较为轻量，因此可以在一定程度上提升程序的并发性能，尤其是在I/O密集型任务中，如网络请求、文件读写等。

然而，Python的全局解释器锁（GIL）在CPython中使得多个线程不能同时执行Python字节码。GIL确保了同一时刻只有一个线程可以执行Python代码，导致在CPU密集型任务中，多线程并不会带来性能的提升。

1.2 多线程的使用场景

I/O密集型任务：例如文件操作、网络请求、数据库访问等。

任务数较多，且每个任务执行时间较短的情况。

1.3 多线程的代码示例

下面是一个简单的多线程示例，用于模拟多个网络请求的并发执行。

import threading
import time

# 模拟一个网络请求的耗时操作
def network_request(thread_id):
    print(f"Thread {thread_id}: 请求开始")
    time.sleep(2)
    print(f"Thread {thread_id}: 请求结束")

# 创建多个线程
threads = []
for i in range(5):
    thread = threading.Thread(target=network_request, args=(i,))
    threads.append(thread)
    thread.start()

# 等待所有线程完成
for thread in threads:
    thread.join()

print("所有线程执行完毕")

在这个例子中，我们创建了5个线程，每个线程模拟一个耗时的网络请求。通过 threading.Thread 创建线程，并使用 start() 启动线程。最后，使用 join() 等待所有线程完成。

2. Python中的多进程

2.1 多进程的基本概念

与多线程不同，多进程是指在操作系统中启动多个独立的进程，每个进程拥有独立的内存空间和资源。在Python中，多进程的优势在于每个进程都有自己的GIL，因此可以充分利用多核CPU，尤其适用于CPU密集型任务。

Python的multiprocessing模块提供了多进程支持，它能有效绕过GIL，利用多核处理器来提升程序性能。

2.2 多进程的使用场景

CPU密集型任务：如图像处理、数据分析、深度学习训练等。

任务需要隔离和独立运行的情况。

2.3 多进程的代码示例

下面是一个使用多进程来计算多个任务的代码示例。

import multiprocessing
import time

# 模拟CPU密集型计算任务
def cpu_bound_task(process_id):
    print(f"Process {process_id}: 计算开始")
    result = 0
    for i in range(10**7):
        result += i
    print(f"Process {process_id}: 计算结束")

if __name__ == '__main__':
    processes = []
    for i in range(5):
        process = multiprocessing.Process(target=cpu_bound_task, args=(i,))
        processes.append(process)
        process.start()

    # 等待所有进程完成
    for process in processes:
        process.join()

    print("所有进程执行完毕")

在这个例子中，我们创建了5个进程，每个进程执行一个CPU密集型计算任务。由于每个进程都拥有独立的内存空间和GIL，因此可以并行执行，利用多核CPU来提升性能。

3. 多线程与多进程的对比

3.1 性能对比

多线程适用于I/O密集型任务，在处理如网络请求、文件读取等操作时，线程可以在等待I/O时让其他线程执行，从而提高效率。然而，在CPU密集型任务中，由于GIL的存在，Python的多线程无法发挥出多核CPU的优势。

多进程适用于CPU密集型任务，由于每个进程拥有独立的内存空间和GIL，它们可以在多核CPU上并行执行，充分利用系统的计算资源。

3.2 使用复杂度对比

多线程：创建和管理线程的开销相对较小，线程之间共享内存，通信较为方便，但需要注意线程同步问题，容易出现竞态条件。

多进程：进程之间相对独立，管理和创建进程的开销较大，进程间通信相对复杂。进程间的数据传输可以通过队列（Queue）或者管道（Pipe）来完成，但这会带来额外的开销。

3.3 适用场景

任务类型	多线程	多进程
I/O密集型任务	√	×
CPU密集型任务	×	√
大量短小任务	√	×
需要隔离的任务	×	√

4. 使用`concurrent.futures`模块

concurrent.futures模块是Python标准库中提供的一个高层次接口，它支持线程池和进程池，可以更方便地管理线程和进程。通过ThreadPoolExecutor和ProcessPoolExecutor，可以轻松实现并发或并行执行任务。

4.1 线程池示例

from concurrent.futures import ThreadPoolExecutor
import time

def task(thread_id):
    print(f"Thread {thread_id}: 执行任务开始")
    time.sleep(2)
    print(f"Thread {thread_id}: 执行任务结束")

with ThreadPoolExecutor(max_workers=5) as executor:
    executor.map(task, range(5))

4.2 进程池示例

from concurrent.futures import ProcessPoolExecutor
import time

def task(process_id):
    print(f"Process {process_id}: 执行任务开始")
    result = sum(range(10**7))
    print(f"Process {process_id}: 执行任务结束")
    return result

with ProcessPoolExecutor(max_workers=5) as executor:
    results = list(executor.map(task, range(5)))

在这些示例中，ThreadPoolExecutor和ProcessPoolExecutor为我们提供了一个简单的接口来管理线程或进程池，自动处理线程或进程的创建与销毁。

5. 多线程与多进程的错误处理

在并发编程中，错误处理是一个非常重要的环节，尤其是在使用多线程或多进程时。如果没有正确的错误处理机制，可能会导致任务无法完成或数据损坏。在多线程和多进程编程中，错误的传播和处理方式各不相同，我们需要采取不同的策略。

5.1 多线程中的错误处理

多线程中的错误处理通常较为复杂，因为多个线程共享同一内存空间，如果某个线程发生异常，可能会影响到其他线程的运行。为了解决这个问题，我们可以使用try-except语句捕获异常，并通过线程的join方法或者使用concurrent.futures.ThreadPoolExecutor的result()方法来捕获异常。

5.1.1 使用`try-except`捕获线程异常

import threading
import time

# 模拟一个可能会抛出异常的任务
def task(thread_id):
    print(f"Thread {thread_id}: 执行任务开始")
    if thread_id == 2:
        raise ValueError(f"Thread {thread_id}: 发生错误")
    time.sleep(2)
    print(f"Thread {thread_id}: 执行任务结束")

threads = []
for i in range(5):
    thread = threading.Thread(target=task, args=(i,))
    threads.append(thread)
    thread.start()

# 等待所有线程完成
for thread in threads:
    thread.join()

print("所有线程执行完毕")

在这个示例中，如果某个线程发生异常，它不会阻止其他线程继续执行。为了捕获异常，我们可以对每个线程的任务进行异常处理，避免程序崩溃。

5.1.2 使用`ThreadPoolExecutor`处理异常

from concurrent.futures import ThreadPoolExecutor

def task(thread_id):
    if thread_id == 2:
        raise ValueError(f"Thread {thread_id}: 发生错误")
    print(f"Thread {thread_id}: 执行任务成功")

with ThreadPoolExecutor(max_workers=5) as executor:
    futures = [executor.submit(task, i) for i in range(5)]
    
    for future in futures:
        try:
            future.result()  # 获取线程结果，如果线程中抛出了异常，会在此抛出
        except Exception as e:
            print(f"捕获到异常: {e}")

通过使用ThreadPoolExecutor.submit()方法，我们可以提交任务，并使用future.result()获取任务执行的结果。如果任务执行过程中发生异常，result()会重新抛出异常，我们可以通过try-except语句来捕获它。

5.2 多进程中的错误处理

与多线程相比，多进程的错误处理通常更加简单，因为每个进程有独立的内存空间，进程间的异常不会互相影响。Python的multiprocessing模块提供了Pool和Process等机制来并发执行任务，并且支持通过apply、apply_async、map等方式进行并发调用。

5.2.1 使用`multiprocessing.Process`捕获进程异常

import multiprocessing
import time

# 模拟一个可能会抛出异常的任务
def task(process_id):
    print(f"Process {process_id}: 执行任务开始")
    if process_id == 2:
        raise ValueError(f"Process {process_id}: 发生错误")
    time.sleep(2)
    print(f"Process {process_id}: 执行任务结束")

if __name__ == '__main__':
    processes = []
    for i in range(5):
        process = multiprocessing.Process(target=task, args=(i,))
        processes.append(process)
        process.start()

    # 等待所有进程完成
    for process in processes:
        process.join()

    print("所有进程执行完毕")

在这个示例中，如果某个进程发生异常，它不会影响到其他进程。进程之间是隔离的，因此即使某个进程崩溃，其他进程仍然能够正常执行。

5.2.2 使用`multiprocessing.Pool`捕获进程池中的异常

import multiprocessing

def task(process_id):
    if process_id == 2:
        raise ValueError(f"Process {process_id}: 发生错误")
    print(f"Process {process_id}: 执行任务成功")
    return f"Process {process_id}: 完成"

if __name__ == '__main__':
    with multiprocessing.Pool(5) as pool:
        results = pool.map(task, range(5))  # 会在此捕获异常并返回结果
        for result in results:
            print(result)

在使用Pool.map方法时，如果某个进程发生异常，整个进程池会等待所有进程完成，并将异常传递到主进程。通过捕获map方法的结果，可以方便地处理每个任务的返回值和异常。

6. 多线程与多进程的性能比较

为了更好地理解多线程与多进程的性能差异，下面我们通过一个简单的示例来进行比较。假设我们需要计算1到10亿的所有整数之和，这个任务是CPU密集型的，因此我们预计多进程会比多线程更有效。

6.1 使用多线程执行任务

import threading
import time

def sum_numbers(start, end):
    total = 0
    for i in range(start, end):
        total += i
    return total

def thread_task():
    start_time = time.time()
    threads = []
    results = []
    for i in range(4):
        thread = threading.Thread(target=lambda i=i: results.append(sum_numbers(i * 25000000, (i + 1) * 25000000)))
        threads.append(thread)
        thread.start()

    for thread in threads:
        thread.join()
    
    print("总和:", sum(results))
    print(f"多线程计算耗时: {time.time() - start_time}秒")

thread_task()

6.2 使用多进程执行任务

import multiprocessing
import time

def sum_numbers(start, end):
    total = 0
    for i in range(start, end):
        total += i
    return total

def process_task():
    start_time = time.time()
    with multiprocessing.Pool(4) as pool:
        results = pool.starmap(sum_numbers, [(i * 25000000, (i + 1) * 25000000) for i in range(4)])
    
    print("总和:", sum(results))
    print(f"多进程计算耗时: {time.time() - start_time}秒")

process_task()

6.3 性能比较

在I/O密集型任务中（如网络请求、文件操作等），多线程能够更好地提高性能，因为它可以在等待I/O的过程中执行其他线程。然而，在CPU密集型任务中，多进程通常会表现得更好，因为它能利用多个CPU核心，而每个进程都有独立的GIL。

在上面的例子中，多进程显然比多线程更高效，因为它充分利用了多核CPU，减少了任务完成的总时间。对于需要大量计算的任务，选择多进程会带来明显的性能提升。

7. 进阶优化：结合`asyncio`和多线程/多进程

在某些情况下，结合使用asyncio异步编程模型和多线程或多进程可以进一步提升性能。asyncio适用于I/O密集型任务，而多线程或多进程可以处理CPU密集型任务。通过协同使用，能够在保证并发性的同时，也能最大化地利用系统资源。

7.1 使用`asyncio`与多线程结合

import asyncio
import threading
import time

# 模拟异步的I/O任务
async def async_task(thread_id):
    print(f"Thread {thread_id}: 异步任务开始")
    await asyncio.sleep(2)
    print(f"Thread {thread_id}: 异步任务结束")

def thread_task(thread_id):
    loop = asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    loop.run_until_complete(async_task(thread_id))

threads = []
for i in range(5):
    thread = threading.Thread(target=thread_task, args=(i,))
    threads.append(thread)
    thread.start()

for thread in threads:
    thread.join()

print("所有线程和异步任务执行完毕")

结合asyncio和多线程，我们可以在每个线程中运行异步任务，从而更高效地处理大量的I/O请求。这种方式特别适用于需要同时处理大量I/O请求的情况，如爬虫、网络请求等。

8. 小结

通过合理使用多线程和多进程，可以大大提高Python程序的性能。在I/O密集型任务中，多线程能够更高效地利用系统资源，而在CPU密集型任务中，多进程则能充分发挥多核CPU的优势。此外，通过结合asyncio和多线程/多进程，可以进一步优化任务调度和资源利用，达到性能的最优化。在进行并发编程时，选择正确的模型和工具是提升程序性能的关键。

作者：一键难忘

物联沃分享整理
物联沃-IOTWORD物联网 » Python中的多线程与多进程指南大全

代码收藏家普通

分享到：