Python爬虫一般用来爬取哪些类型的数据？

我看很多人都从爬虫入手学习 python 啊，可是在我的认识里，基本上是个网站都有各种防爬措施了吧，那你们到底在爬什么呢？如何区分是自己的程序有问题还是被对方给防御了？
Python爬虫一般用来爬取哪些类型的数据？

h691938207 1楼

爬手机某些 app 的数据，爬某些网站的数据并实时发送到群里，脚本节省人工的时间

eggper 2楼

Python爬虫主要用来爬取这几类数据：

网页内容：比如新闻文章、博客帖子、产品描述这些文本信息，直接提取HTML里的文字。
结构化数据：最常见的就是爬表格数据，像股票价格、天气信息、房产列表，这些数据通常规整，容易存到数据库或Excel里。
媒体文件：下载图片、视频、音频文件，比如爬壁纸网站或收集某个产品的所有图片。
API数据：很多网站提供JSON接口，爬虫直接调用这些接口获取数据，比解析HTML更高效稳定。
社交媒体数据：抓取公开的帖子、评论、用户基本信息，用于舆情分析或市场研究。
价格与商品信息：电商爬虫的核心，监控竞争对手的价格、库存、商品详情。
学术与科研数据：从论文网站、学术数据库抓取文献信息、数据集。
实时数据：比如航班状态、加密货币价格、体育比赛比分这些频繁更新的信息。

简单说，只要是网上公开的数据，理论上都能爬，但一定得注意网站的robots.txt和法律法规。

nodeper 3楼

爬某番号站的磁力链接

bupafengyu 4楼

爬 Chegg 的答案 HTML 解析成 Markdown 渲染成 PDF 就可以丢 iPad 上随时看了（暴露年龄）

sinazl 5楼作者

爬美女图片呀

h691938207 6楼

合法福利图片
历史价格记录
公开的非直接提供的数据

gougou168 7楼

。宅男福利图片

vueper 8楼

例如在墨尔本，政府有开放数据平台，可以获得各种有意思的社会化数据。有提供相应的 API 接口读取，可以用爬虫自己采集整合到自己的网站。
https://data.melbourne.vic.gov.au/

h691938207 9楼

爬知乎的各种照片

bupafengyu 10楼

害羞组？

gougou168 11楼

#5 都是实用数据.

songsunli 12楼

请问有没有爬汤不热的啊 https://carry9109.tumblr.com/archive [NSFW]

eggper 13楼

中纪委数据

phonegap100 14楼

爱情动作片？ XX 照？
如果实在没什么要爬的，你也没必要非爬不可

htzhanglong 15楼

Javbus，一个 Java 学习网站

wuwangju 16楼

1024

songsunli 17楼

https://github.com/dixudx/tumblr-crawler 不用谢（严肃脸

phonegap100 18楼

爬写真集的下载链接然后自动下载解压

caililin 19楼

开车了。。

songsunli 20楼

爬山爬树

wuwangju 21楼

爬汤的太多了，但都没有管理功能，爬一次以后，不能检测更新文件

h691938207 22楼

看最近有谁出什么问题八卦了，爬他相关的社交账号内容，顺手 archive。等他删除后把黑料卖给利益相关的。

bupafengyu 23楼

对啊实用数据才有动力爬，尤其是妹子图片

h691938207 24楼

爬花瓣和 p 站的图到本地做个本地备份

sinazl 25楼作者

我凑我还真天真的百度了下,想着又多了个 Java 网站…结果真是个 JAVa 网站…

caililin 26楼

页游的推广码

eggper 27楼

这网站学习 JAVA 会导致学得营养跟不上。

sinazl 28楼作者

爬数据：房价，股票

htzhanglong 29楼

煎蛋妹子图，知乎，豆瓣不要害羞小组，国外高清大图，汤不热，p**nhub 等

songsunli 30楼

历史价格，淘宝里面有吗？同步一下，也让偶学习学习！

eggper 31楼

爬楼梯

sinazl 32楼作者

mark 了，回头把你们说的都爬一下

vueper 33楼

mark

songsunli 34楼

谢谢推荐，我一定要好好学习 Java

bupafengyu 35楼

人体艺术图片

sinazl 36楼作者

看来 PYTHON 还是得学

zlyuanteng 37楼

我信了你的邪。

sinazl 38楼作者

我是从写脚本入门 Python 的，够小清新吧

yibo5220 39楼

一般晚上爬

gougou168 40楼

我一般都爬山。

nodeper 41楼

第一印象想说爬山的。。。

wuwangju 42楼

哈哈哈哈，好主意，同 mark ！！

sinazl 43楼作者

爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
然后可以给 livid 统计一下他的工时

phonegap100 44楼

豆瓣害羞组

eggper 45楼

前不久用 PHP 爬过，3 大类的车牌差不多 34 万+，磁力 85 万+，各类图片 1 千万+（下载下来 4 百多 G，开了 30 个 PHP 进程来抓，花了 1 天多）

yuanlaile 46楼

用的哪的接口啊？

sinazl 47楼作者

hentai 网站，不过看腻了又不想玩了

bupafengyu 48楼

数据还是很容易拿的，就是难以筛，好坏要是能用机器学习筛出来的话。

itying888 49楼

mark

gougou168 50楼

豆瓣害羞组爬虫已写好，高速运行中… 多谢科普！

yibo5220 51楼

靠,本来自制力就弱,结果不小心点开这个帖子
今天鸡儿又没得放假了😢

gougou168 52楼

mark 了

nodeper 53楼

mark 了谢谢各位！

vueper 54楼

mark 感谢各位司机

zlyuanteng 55楼

强行爬取

wuwangju 56楼

pixiv

sinazl 57楼作者

A 级通缉令的数据

htzhanglong 58楼

推荐一个 http 代理网站 http://www.ip-chi.net

ionicwang 59楼

tumblr、1024、各种视频网站，应有尽有

eggper 60楼

给老司机们跪了

sinazl 61楼作者

在线学习，20 分钟要确认一次在线。机器代挂机。
对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。