Python爬虫平台Crawlab v0.2.2 发布,如何使用?
Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。
对 Crawlab 还不了解的童鞋,请移步之前的文章:
- 我是如何在 3 分钟内开发完一个爬虫的
- 爬虫平台 Crawlab v0.2 发布
- 手把手教你如何用 Crawlab 构建技术文章聚合平台(二)
- 手把手教你如何用 Crawlab 构建技术文章聚合平台(一)
- 分布式通用爬虫管理平台 Crawlab
分布式调度系统
Crawlab 的任务调度核心模块基于 Celery,因此天然支持分布式爬虫、多节点抓取。
自定义爬虫
Crawlab 的自定义爬虫可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以 scrapyd 为核心,因此只能支持 scrapy 框架的爬虫,而 Crawlab 不仅支持 scrapy,还支持其他框架的爬虫。
可配置爬虫
Crawlab 在版本v0.2.1中新增了可配置爬虫功能,用户通过配置爬虫的抓取规则,不用写任何代码,就可以在 1-3 分钟内开发好一个集下载、解析、存储一体的常规爬虫。
自动提取匹配规则
在v0.2.2中,加入了自动提取列表字段规则,让用户能够一键提取匹配的列表字段,开发时间进一步降低到半分钟以内。因此 Crawlab 正在朝真正的“一键抓取”的目标迈进。
更新一览
v0.2.2
- [x] 自动提取匹配规则
- [x] 下载抓取结果
v0.2.1
- [x] 可配置爬虫
- [x] 网站列表
v0.2
- [x] 基础统计
- [x] 数据分析(爬虫)
- [x] 网站信息
- [x] 定时任务
待开发
- [ ] 用户管理
- [ ] 上传爬虫
- [ ] 下载爬虫
- [ ] 可配置爬虫支持动态内容
- [ ] 异常监控
- [ ] 更多爬虫例子
- [ ] 文件管理
- [ ] 日志管理
- [ ] 部署系统优化
截屏
可配置爬虫(添加)
可配置爬虫(配置)
可配置爬虫(预览)
网站列表
Github: tikazyq/crawlab
如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信拉入开发交流群,大家一起交流关于 Crawlab 的使用和开发。
Python爬虫平台Crawlab v0.2.2 发布,如何使用?
1 回复
我无法理解你的问题。

