Python爬虫项目推荐与持续更新

上链接：
https://github.com/intohole/xspider

希望大家多关注，我会慢慢完善这个工程的，有需求可以给我提出 issue，谢谢大家
Python爬虫项目推荐与持续更新

整个 Google play 的爬虫

我无法理解你的问题

如果你的项目有明显优于scrapy的地方，那请重点介绍这个优点；

如果你只是想深入了解爬虫架构，那请配合分享你的开发博客，《深入理解爬虫架构》；

否则，你的这个项目，除了自己练手，没有任何可分享的意义。

不是很推荐用 xpath 来提取信息，麻烦得很。用 beautifulsoup 或 pyquery 都好点。

难道 lz 这个还能智能爬不成？不用每个网站都搞个爬虫规则。

可以看我另外个工程 sixgod 也在这个 github，里面可以自动提取正文；如果有提取其它元素的话，可以提 issue

这里面支持 beautifulsoup ; 我只是没写文档

谢谢意见，这个是我在做一个信息爬取工程，里面正在改进；文档我会慢慢丰富起来

谷歌市场？可以用这个里面写的，只需要你会写 xpath css selector 就可以了

后续我会加入 pyquery 的，谢谢你这个建议

我倒是觉得有时用 xpath 也很方便，直接在浏览器中右键复制节点的 xpath，在稍微改改就写出来了。

楼主加油，不过……

感觉是在重复造轮子，因为功能不完善所以很轻，很多情况都没考虑到

scrapy 和 pyspider 已经很出色，再加上很多分支，已经很完美了，requests 也足够满足轻型 spider 的需求，所以除非以学习为目的，这种重复造轮子很浪费时间

肯定有些不同的，比如我现在抓取的时候面临资源不足的情况，有自己的解决方案；

MSpider 也很好

ionicwang 15楼作者

，然而资源不足只是 spider 很小的问题，更多的问题则在于反爬上，如果楼主能在这方面下功夫那这个框架的肯定不可小觑

anyway，还是很支持楼主将一个框架由小做大的，希望楼主能坚持下去

我会参考这个工程的，thx

谢谢，我会加油的

技术这个行业，过去一个话题的开始是写一个：hello, world。
这个行业的现在变成了：从零写一个爬虫。

什么项目不是从 0 开始的呢？还有你觉得写爬虫架构很好写，写个队列，写个抓取器就完活了？谢谢关注

加上一句，make the world a better place

sixgod 比较块密度进行爬取，这个思路以前看过，对结构简单的网站比较适用，复杂的还是很难搞吧。

首先你的业务是什么？每个人的业务都不一样，只能是大体通用，智能提取算法，你可以自己找找 paper