Python中关于Scrapy框架的疑问：为什么测试结果显示CPU线程越多性能越好？

8 核 CPU 的 ATOM 能跑满 100M 带宽

2 核 CPU 的 E3 只能跑 8M

4 核 AMD 只能跑 5M

scrapy 是异步 IO 的…受限于 Python 的 GIL 锁无论如何也只能跑慢一个核啊（有子调用不算

这个现象其实挺有意思的。在Scrapy里，你看到的“CPU线程越多性能越好”很可能是因为你把并发请求数（CONCURRENT_REQUESTS）和CPU线程搞混了。

Scrapy本身是单线程的，它基于Twisted这个异步网络框架。它的高性能不靠多CPU线程，而是靠异步I/O。当爬虫在等待一个网络请求返回时，事件循环会立刻去处理下一个请求，所以它能用单个线程同时管理成百上千个网络连接。

你测试时调整的可能不是真正的CPU线程，而是这几个核心并发设置：

当你增加CONCURRENT_REQUESTS（比如从16调到32、64），就允许Scrapy在同一时刻发出更多的请求。只要网络带宽够、目标服务器能承受，并且你的解析代码（parse方法）不是计算密集型的，那么提高这个值就会直接提升整体的数据抓取吞吐量，看起来就是“性能越好”。

所以，关键不是CPU线程，而是你通过调整并发参数，更好地利用了爬虫等待网络I/O的空闲时间。对于Scrapy这种I/O密集型任务，在达到网络或服务器瓶颈前，提高并发数就是最有效的提速手段。

总结：别纠结CPU线程，去调CONCURRENT_REQUESTS。

itying888 3楼

贴最小可重现代码，你这样没法说。

不加组件是单核的。。你这多核是怎么跑的

我下载图片的这个部门 urllib.openurl 做的是不是因为这个原因？

跑带宽应该就是下载图片这个部分