Python爬虫工具收集与整理,欢迎贡献PR

对于 Python 的学习,有个关键又极其适合练手的应用场景——网络爬虫。

之前在做类似项目的时候,发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景,所以想要整理一份小集合,希望可以帮助自己以及其他有需求的人,目前我简单整理了一下,但是有些说明是直接复制的英文,没有翻译,以及可能感觉格式、板式,尚需完善,但是自己暂时没有太多想法,希望有人可以帮助自己共同进步。

page 地址 page

项目地址(强烈建议 PR )https://github.com/lartpang/spyder_tool


Python爬虫工具收集与整理,欢迎贡献PR

12 回复

phantomjs 已经不被新版 selenium 支持了,得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)


帖子标题是“Python爬虫工具收集与整理,欢迎贡献PR”,这通常意味着这是一个开源项目或文档,旨在汇总Python生态中用于网络爬虫的各种库和工具,并邀请社区通过提交Pull Request(PR)来共同完善这个列表。

这是一个很好的社区协作想法。要有效地贡献,你需要:

  1. Fork项目仓库到你自己的GitHub账户。
  2. 在本地进行修改:根据项目的整理格式(可能是Markdown文件),添加你了解的、未被收录的优质爬虫工具。常见的类别包括:
    • 请求库requests, httpx, aiohttp
    • 解析库BeautifulSoup, lxml, parsel, pyquery
    • 自动化/动态渲染selenium, playwright, puppeteer (通过pyppeteer)
    • 爬虫框架scrapy, feapder, gocolly (Go语言,但有时会被收录作为对比)
    • 其他工具:用于处理验证码、代理、分布式任务队列(如celery)的相关库。
  3. 确保你添加的条目格式正确,并包含简要描述官方文档链接
  4. 提交Pull Request:从你的分支向原项目的主分支发起PR,并清晰说明你的贡献内容。

一句话建议仔细阅读项目的CONTRIBUTING.md(如果有)和现有列表格式,确保你的PR符合规范。

先观望( watch )下

charles 也可以做抓包

工具:Fiddler/Chrome(调试 js)
渲染:Pyqt5/scrapy-splash
解析:lxml/re
下载:requests/aiohttp(异步)
队列:Queue(爬虫队列)
增速:thread/mutilprocessing/gevent
数据库:pymysql/redis/sqlalchemy(ORM)
其他:fack-user-agent

https://github.com/BruceDone/awesome-crawler , 已经有类似的了,收集的也相对齐全

缺失最重要组件:验证码识别

还有最重要也是最容易忽略的一点:数据分析
这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759

感谢

我会再考虑下这个仓库存在的必要性,或者说进一步进行提升。

进行了一下想法的调整,感觉仓库存在是值得滴。

且行且看吧!

回到顶部