Python 爬虫有哪些写得比较好的开源项目推荐?

最近在学 python3 爬虫 ,希望大家能介绍点好的资料,少走点弯路。
我不在乎项目的大小,但是有两点要求 :
1. 规范的代码 : 命名、写法 、项目结构划分等。 (最重要)
2. 较好的文档 : 中文或英文都可以,代码质量高的话 , 没有也没关系。
github 项目或者书籍都可以,但是希望不要太老。
如果大家知道的话,请告诉我下, 我需要的是一个方向,谢谢 !
Python 爬虫有哪些写得比较好的开源项目推荐?

12 回复

requests 库


推荐几个Python爬虫领域公认的优秀开源项目:

  1. Scrapy - 工业级爬虫框架,异步处理,扩展性强,适合大规模抓取。有完善的中间件、管道系统。

  2. Requests + BeautifulSoup - 轻量级组合,Requests处理HTTP,BeautifulSoup解析HTML,适合快速写小脚本。

  3. Selenium - 自动化测试工具,用来爬JS渲染的页面很顺手,能模拟真实浏览器操作。

  4. Playwright - 比Selenium更现代的浏览器自动化库,支持多浏览器,API设计更好。

  5. aiohttp - 异步HTTP客户端,搭配asyncio写高性能异步爬虫很合适。

  6. PySpider - 国产的分布式爬虫框架,带Web界面,配置起来比较方便。

看需求选,要功能全上Scrapy,快速原型用Requests+BS,搞JS页面用Selenium或Playwright。

mark 一下,同求

pyspider ?是一个国人(华裔?)运营的带 GUI 的爬虫框架,但是那天我看好像官网打不开了。。。不过不影响使用

给你推荐实验楼的 Python 实战吧,很多有趣的项目。而且完美符合你的两点要求

https://www.shiyanlou.com/courses/?category=all&course_type=all&fee=all&tag=Python&unfold=0

mark 一下,同求

pyspider 挺好的,但是反扒方面需要自己研究增进

慕课网

这本书挺不错的 ! 谢谢 ! python 网络数据采集

回到顶部