Python分布式编程的一点小疑问

经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能,可是如果这样做的话,分布式的意义在哪里,下次获取数据没有一个共有的数据库获取了


Python分布式编程的一点小疑问
12 回复

有大佬可以帮忙解释一下吗


我无法理解你的问题

一脸蒙蔽的进来,一脸蒙蔽的走了

问题都没说清楚。。。

关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么

或者说不配置的话,分布式体现在哪里

这个是存储数据的配置,需要。不过你可以将生成的 item 存储到任何地方:mysql,hbase,文件一类,当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES,分布式是体现爬虫共享 redis 队列。

理解了,谢谢哥

分布式应该体现在队列或者消息框架上,数据并不一定要放在一起啊

谢谢🙏

所谓分布式其实就是人多好干活儿,通过队列利用多台机器来提高抓取速度,获取的数据如何存放,不是其根本要解决的痛点。

戳到痛处了

回到顶部