Python 中的多线程 vs 多进程中嵌套多线程，哪一种进行 IO 操作的性能更高？

假设一件任务的主要工作是处理网络 IO+读写文件 IO，
使用 python 使用下面三种不同的多任务并行处理方案：

使用 threading 实现 30 个线程：
threadingNum=30
使用 mulitprocess 实现 3 个的进程，每个进程实现 10 个线程：
processing=3, threadingNum=10
使用 threading 实现 10 个线程，并手动在主机开三个进程：
threadingNum=10, executionNum=3

问题来了：

基于以上情形，那种方案效率会更高？
如何去分析这几种情况的执行效率快或者慢的原因？
或者说以上三种方案根本没有比较的意义？
在使用 python 处理大量 IO 操作时，各位老哥一般都使用什么解决方案呢？（不限于标准和第三方库和其他灵活的处理方案）

（另外补充一下，我特别喜欢这个社区，觉得 V 社的老哥们都是真心在讨论问题和思考问题，每次在这里讨论问题都可以学到很多东西。如果我问问题方式有不恰当的地方和提问频率较高影响到大家的话，希望大家不吝指出！）

Python 中的多线程 vs 多进程中嵌套多线程，哪一种进行 IO 操作的性能更高？

h691938207 1楼

以下是个人见解：

1、Socket IO 的话明显是要用 async/await 这种异步 IO，然后开多进程启动效率最好，参考 Tornado 的部署方法

2、文件读写 IO，对于这种明显是更多的进程更有效果。但是还需要考虑的问题是 CPU 会满载、硬盘 IO 读写速度达到瓶颈，所以更好的方法是换 CPU 和更快硬盘。

3、分析快慢的方法，从了从直观的时间上看出了。更多需要相关的知识，比如线程进程原理可以任何一本教科书，具体的应用手法可以看 APUE 中的部分。

4、Python 处理网络 IO 各种异步库都有，FILE IO 的话没什么办法，只能用一些取巧的方法。

以上。

wuwangju 2楼

对于IO密集型任务，多线程通常比多进程嵌套多线程性能更高，原因很简单：

线程切换成本低：Python线程在IO操作时会主动释放GIL，其他线程可以立即执行，切换开销远小于进程切换
内存共享优势：线程共享内存，数据传递零拷贝；进程间通信需要序列化/反序列化，增加额外开销
IO瓶颈不在CPU：GIL对纯IO操作没影响，因为线程在等待IO时根本不持有GIL

看个简单对比：

import threading
import multiprocessing
import time
import requests
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

def io_task(url):
    # 模拟IO操作
    time.sleep(0.1)
    return len(requests.get(url).text)

# 纯多线程方案
def multi_thread(urls, workers=10):
    with ThreadPoolExecutor(max_workers=workers) as executor:
        results = list(executor.map(io_task, urls))
    return results

# 多进程嵌套多线程（每个进程开多个线程）
def multi_process_with_threads(urls, process_count=2, threads_per_process=5):
    def process_task(url_chunk):
        with ThreadPoolExecutor(max_workers=threads_per_process) as executor:
            return list(executor.map(io_task, url_chunk))
    
    chunk_size = len(urls) // process_count
    chunks = [urls[i:i+chunk_size] for i in range(0, len(urls), chunk_size)]
    
    with ProcessPoolExecutor(max_workers=process_count) as executor:
        results = list(executor.map(process_task, chunks))
    return [item for sublist in results for item in sublist]

# 测试
if __name__ == "__main__":
    urls = ["http://httpbin.org/delay/1"] * 20
    
    start = time.time()
    multi_thread(urls)
    print(f"纯多线程: {time.time()-start:.2f}秒")
    
    start = time.time()
    multi_process_with_threads(urls)
    print(f"多进程嵌套多线程: {time.time()-start:.2f}秒")

实际跑起来，纯多线程版本几乎总是更快，因为少了进程创建和IPC的开销。只有在IO操作中混了大量CPU计算时，才需要考虑多进程方案。

总结：IO操作用多线程就够了。

phonegap100 3楼作者

大量网络 IO 和文件 IO 的话推荐 python >= 3.6 的 asyncio，原生支持异步操作，关键词 aiohttp

caililin 4楼

asyncio

yuanlaile 5楼

大量 IO 的话线程就行了

nodeper 6楼

这三种情况的负载应该差不多，性能损失主要应该在上下文切换。应该从 CPU 多核利用率的角度来考虑。像 nodejs 好像可以配置根 CPU 核心数量一样的进程数来提高效率。python 么没听说过类似的功能。

phonegap100 7楼作者

网络 IO 还好说一点，文件 IO 一定程度上依赖于磁盘类型，碟片的话做顺序读写，SSD 的话做随机读写。另外磁盘本身的缓存和操作系统的缓存都会严重影响测试结果。

wuwangju 8楼

python2: 进程+协程 gevent+uwsgi or gunicorn。

gougou168 9楼

你要从问题瓶颈入手来解决而不是上来就拍脑袋用哪个方案。

你的需求不太明确，我也不了解你现有系统的架构和性能参数，所以没办法给你正确的建议。现在就能拍出具体建议的都是大神，请鄙视我。

用哪个方案和场景有关系。你要解决整体性能问题缩短运行时间，还是只是解决阻塞的问题。

另外你充分理解三种资源的特性，网络、CPU、磁盘

比如你的网络带宽 2M，要访问的服务器每个提供的下载带宽 1M。那你开两 2 线程要行了。开 30 线程完全没有用最多也就是 2M 了，这种情况下你优化磁盘写入性能不是扯么，除了扩容你的带宽你用什么也提高不了整体性能了。

如果是运算密集型的任务，比如数据要解压解密再编码，就要考虑开多进程利多核心，如果 CPU 负载很轻只是因为阻塞速度慢，你写成多进程代码要增加复杂度，白浪费精力。

磁盘是串行读写的，传统机械硬盘就一个磁头在那里寻道读写，成批量大块的连续写入方案才能提高性能，这就是为什么硬盘都有缓存。如果写入是瓶颈而你要想的不是开多个线程，而是在内存内开个更大缓存，弄个写入队列之类的。

wuwangju 10楼

谢谢老哥，分析很非常有条理，给我提供了很好的思路~

gougou168 11楼

谢谢答案，想了一下应该是我钻牛角尖了，实际场景几乎不会太计较这三种情况吧~

sinazl 12楼

嗯，是的，主要是考虑同步异步的问题，我是突然想到线程和进程的搭配问题钻了牛角尖，谢谢老哥~

nodeper 13楼

看了半天没看到 1-2-3 这三种情况的对比和解释

caililin 14楼

我不太懂 python，但是这类语言从设计上来讲，cpu 密集的话，线程可能并不是一个好的选择。
但是如果是 IO 密集，根据你具体 IO 的使用、并发的数据使用形式、锁、生命周期等实际状况来选择进程、线程和异步 IO。

songsunli 15楼

我也发现了，可能是这样比较意义不大吧~