Python爬虫中使用Scrapy框架时如何解决内存溢出问题

这是一些截图

我还自己写了个日志文件，储存抓取过的网址，每次都会读写此文件，内存溢出与这个有关系吗？

v 友们，帮忙看看

Python爬虫中使用Scrapy框架时如何解决内存溢出问题

bupafengyu 1楼

类似 java 堆 dump，分析内存可破。原来写爬虫用的 java 遇到过几次 oom，用 visualVM 和 memory analyzer 定位解决。Python 应该也有类似的工具吧

yuanlaile 2楼

问题分析：
Scrapy爬虫内存溢出通常由请求堆积、数据未及时清理或解析逻辑缺陷引起。核心解决思路是控制并发、优化数据处理和利用Scrapy内置机制。

解决方案：

限制并发与延迟
在settings.py中调整：

CONCURRENT_REQUESTS = 32      # 降低并发请求数（默认16）
CONCURRENT_ITEMS = 100        # 降低并发处理项数
DOWNLOAD_DELAY = 0.5          # 增加下载延迟（秒）

启用自动限速

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1.0
AUTOTHROTTLE_MAX_DELAY = 60.0

及时清理数据
在解析回调中避免累积数据，使用生成器逐条产出：

def parse(self, response):
    for item in response.css('div.product'):
        yield {
            'name': item.css('h2::text').get(),
            'price': item.css('.price::text').get()
        }
        # 避免将数据存入列表再批量返回

控制响应缓存

HTTPCACHE_ENABLED = True      # 启用缓存避免重复下载
CLOSESPIDER_ITEMCOUNT = 1000  # 抓取指定数量后自动关闭

监控内存使用
添加中间件统计对象数量：

class MemoryMonitorMiddleware:
    def process_spider_output(self, response, result, spider):
        for r in result:
            yield r
        if spider.settings.getbool('MEMORY_DEBUG'):
            import objgraph
            objgraph.show_most_common_types(limit=20)

总结建议： 控制并发、及时释放数据、利用Scrapy内置限流机制是解决内存溢出的关键。

itying888 3楼

上面截图就是一部分分析吧，我是看官方文档怎么解释的，不过接下来该怎么做啊。求指教

yibo5220 4楼

每次关闭这个文件了吗？

bupafengyu 5楼

用了 with open(…) as f:上下文管理器的

songsunli 6楼

楼主找到原因了么？我也遇到内存溢出了，机器还好内存大，用了快 11g 被杀了。