Python爬虫项目推荐与持续更新

上链接:
https://github.com/intohole/xspider


希望大家多关注,我会慢慢完善这个工程的,有需求可以给我提出 issue,谢谢大家
Python爬虫项目推荐与持续更新

22 回复

整个 Google play 的爬虫


我无法理解你的问题

如果你的项目有明显优于scrapy的地方,那请重点介绍这个优点;

如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》;

否则,你的这个项目,除了自己练手,没有任何可分享的意义。

不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。

难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。

可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue

这里面支持 beautifulsoup ; 我只是没写文档

谢谢意见,这个是我在做一个信息爬取工程,里面正在改进;文档 我会慢慢丰富起来

谷歌市场?可以用这个里面写的,只需要你会写 xpath css selector 就可以了

后续我会加入 pyquery 的 ,谢谢你这个建议

我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。

楼主加油,不过……

感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到

scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间

肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;

MSpider 也很好

,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑

anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去

我会参考这个工程的 ,thx

谢谢,我会加油的

技术这个行业,过去一个话题的开始是写一个:hello, world。
这个行业的现在变成了:从零写一个爬虫。

什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注

加上一句,make the world a better place

sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。

首先你的业务是什么? 每个人的业务都不一样,只能是大体通用 , 智能提取算法 , 你可以自己找找 paper

回到顶部