Python爬虫一般用来爬取哪些类型的数据?
我看很多人都从爬虫入手学习 python 啊,可是在我的认识里,基本上是个网站都有各种防爬措施了吧,那你们到底在爬什么呢?如何区分是自己的程序有问题还是被对方给防御了?
Python爬虫一般用来爬取哪些类型的数据?
爬手机某些 app 的数据,爬某些网站的数据并实时发送到群里,脚本节省人工的时间
Python爬虫主要用来爬取这几类数据:
-
网页内容:比如新闻文章、博客帖子、产品描述这些文本信息,直接提取HTML里的文字。
-
结构化数据:最常见的就是爬表格数据,像股票价格、天气信息、房产列表,这些数据通常规整,容易存到数据库或Excel里。
-
媒体文件:下载图片、视频、音频文件,比如爬壁纸网站或收集某个产品的所有图片。
-
API数据:很多网站提供JSON接口,爬虫直接调用这些接口获取数据,比解析HTML更高效稳定。
-
社交媒体数据:抓取公开的帖子、评论、用户基本信息,用于舆情分析或市场研究。
-
价格与商品信息:电商爬虫的核心,监控竞争对手的价格、库存、商品详情。
-
学术与科研数据:从论文网站、学术数据库抓取文献信息、数据集。
-
实时数据:比如航班状态、加密货币价格、体育比赛比分这些频繁更新的信息。
简单说,只要是网上公开的数据,理论上都能爬,但一定得注意网站的robots.txt和法律法规。
爬某番号站的磁力链接
爬 Chegg 的答案 HTML 解析成 Markdown 渲染成 PDF 就可以丢 iPad 上随时看了(暴露年龄)
爬美女图片呀
合法福利图片
历史价格记录
公开的非直接提供的数据
。宅男福利图片
例如在墨尔本,政府有开放数据平台,可以获得各种有意思的社会化数据。有提供相应的 API 接口读取,可以用爬虫自己采集整合到自己的网站。
https://data.melbourne.vic.gov.au/
爬知乎的各种照片
害羞组?
#5 都是实用数据.
请问有没有爬汤不热的啊
https://carry9109.tumblr.com/archive [NSFW]
中纪委数据
爱情动作片? XX 照?
如果实在没什么要爬的,你也没必要非爬不可
Javbus, 一个 Java 学习网站
1024
爬写真集的下载链接然后自动下载解压
开车了。。
爬山爬树
爬汤的太多了,但都没有管理功能,爬一次以后,不能检测更新文件
看最近有谁出什么问题八卦了,爬他相关的社交账号内容,顺手 archive。等他删除后把黑料卖给利益相关的。
对啊实用数据才有动力爬,尤其是妹子图片
爬花瓣和 p 站的图到本地 做个本地备份
我凑 我还真天真的百度了下,想着又多了个 Java 网站…结果真是个 JAVa 网站…
页游的推广码
这网站学习 JAVA 会导致学得营养跟不上。
爬数据: 房价, 股票
煎蛋妹子图,知乎,豆瓣不要害羞小组,国外高清大图,汤不热,p**nhub 等
历史价格,淘宝里面有吗?同步一下,也让偶学习学习!
爬楼梯
mark 了,回头把你们说的都爬一下
mark
谢谢推荐,我一定要好好学习 Java
人体艺术图片
看来 PYTHON 还是得学
我信了你的邪。
我是从写脚本入门 Python 的,够小清新吧
一般晚上爬
我一般都爬山。
第一印象 想说爬山的。。。
哈哈哈哈,好主意,同 mark !!
爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
然后可以给 livid 统计一下他的工时
豆瓣害羞组
前不久用 PHP 爬过,3 大类的车牌差不多 34 万+,磁力 85 万+,各类图片 1 千万+(下载下来 4 百多 G,开了 30 个 PHP 进程来抓,花了 1 天多)
用的哪的接口啊?
hentai 网站,不过看腻了又不想玩了
数据还是很容易拿的,就是难以筛,好坏要是能用机器学习筛出来的话。
豆瓣害羞组爬虫已写好,高速运行中… 多谢科普!
靠,本来自制力就弱,结果不小心点开这个帖子
今天鸡儿又没得放假了😢
mark 了
mark 了 谢谢各位!
mark 感谢各位司机
强行爬取
pixiv
A 级通缉令的数据
推荐一个 http 代理网站 http://www.ip-chi.net
tumblr、1024、各种视频网站,应有尽有
给老司机们跪了
在线学习,20 分钟要确认一次在线。机器代挂机。
对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。


