Python爬虫框架pyspider有什么坑吗

在 v2 看到好多次说不建议使用 pyspider 的，但是目前公司主要用的就是这个，因为他的可视化界面。
所以，pyspider 到底都有哪些坑？有个印象好避免。
Python爬虫框架pyspider有什么坑吗

pyspider的坑主要集中在几个方面。首先是并发控制，它默认的并发数设置得比较激进，如果目标网站有反爬机制，很容易触发IP封禁。你得手动在self.crawl里调低priority或者用itertask来限速。

然后是请求去重，pyspider默认用taskid做唯一标识，但如果你爬取的URL带随机参数或者会话ID，会导致重复抓取。建议重写get_taskid方法，只提取URL中有意义的部分作为taskid。

另一个常见问题是内存泄漏，长时间运行后内存占用会越来越高。这通常是因为回调函数里持有了大量对象引用，记得及时清理response对象和中间数据。

最后是分布式部署比较麻烦，虽然支持RabbitMQ和Redis作为消息队列，但配置起来比Scrapy麻烦不少，特别是任务状态同步容易出问题。

总结：用的时候注意调优并发和去重策略。

Google 关键词「 pyspider site:v2ex.com 」

100 万行你要用数据库了吧，默认哪个 lite 的支持不了。

bupafengyu 5楼作者

我也遇到过，在抓取网页时，a 链接明明有 30 条，但他只能抓到 2 条。换一个列表页又正常了，感觉是 html 中的特殊隐藏字符的原因，现在也没解决。