Python爬虫现在公司写爬虫的风险有多大？还能抓吗？

看了篇文章 https://www.yuanrenxue.com/crawler/web-crawler-law.html 里面讲了有公司抓今日头条数据，被今日头条告了，以《刑法》第 285 条：非法获取计算机信息系统数据罪，被判有期徒刑，嚓被判刑依据是“修改 UA，绕开访问频率控制”，写爬虫这不是常用手段吗？？？？？这下写爬虫前，岂不是先要去读一下刑法呀，呃呃

songsunli 1楼

要低调？？？？

yibo5220 2楼

现在写爬虫确实得悠着点，风险主要来自法律层面。
《反不正当竞争法》和《数据安全法》出台后，绕过技术措施、抓取非公开数据、干扰网站运行都可能被告。
特别是大规模爬取商业数据、绕过登录或验证码、违反robots协议，风险很高。

技术上当然还能抓，但得守规矩：

遵守robots.txt，控制请求频率，别把人家服务器搞崩了。
只抓公开数据，避开个人隐私和明确声明禁止爬取的内容。
用正规API优先，很多平台提供了数据接口。

简单说就是：能抓，但得合法合规地抓。

h691938207 3楼

去判决文书网看看，多呢，特别是网安法施行以后。

h691938207 4楼

应该是要看爬虫爬的数据是什么数据, 还有是否盈利

eggper 5楼

这里判刑的是绕过了身份验证的吧，正常爬公开的数据也违法？

wuwangju 6楼

背后一凉，我要辞职

nodeper 7楼作者

如果法律上出现非法这个词而且没有解释的话。很搞笑啊。

sinazl 8楼

不知道有没有谁知道详情，印象里判决书那段确实很扯，但是实情是抓数据的人是头条出来的，应该是利用了头条内部的什么漏洞抓的数据，不是爬公开数据。另外，如果判决真的就是那样成立的，那其实百度也可以被套进去。。

vueper 9楼

如果触犯刑法，那就肯定 GG。

yibo5220 10楼

显然违法的。。。你多关心一下网络安全法和判例吧

nodeper 11楼作者

判决文书里写得很模糊，感觉像绕开对方的访问控制策略就会遭殃。。。。。。。

vueper 12楼

能再阐述多一点么

phonegap100 13楼

如果绕开访问控制策略就会判刑，那么必须公开自己的访问控制策略才行啊，否则我怎么知道是不是不小心歪打正着的

yibo5220 14楼

百度等搜索引擎或成为最大的被判刑者

2333333333

caililin 15楼

文章的案例里面，写爬虫的小公司因为 Linkedin 反爬虫而告 Linkedin，法院还判胜诉了。

结论是“如果数据拥有者有证据向法院起诉的话，抓取数据的一方多半会败诉。”

黑人问号？？？？

vueper 16楼

那个是讲的国外反例吧。。

ionicwang 17楼

天眼查爬各大.政.府.部.门服务器的数据，怎么就没人管呢？还公开贩.卖企业负责人姓名、电话…

wuwangju 18楼

网络爬虫（英语：web crawler ），也叫网络蜘蛛（ spider ），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。……网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。……不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用 robots.txt 文件之类的方法避免访问。 —— 摘自维基百科 https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2

楼主你那不叫作爬虫，你那是恶意抓数据，从来就没合法过。

Linkedin 案例，那个小公司是用正常的爬虫去爬，然后自己分析（简单得说就是高级人肉搜索），Linkedin 就加了手段，只让搜索引擎爬，不让那小公司爬。Linkedin 相当于开门接客，大家都可以只看不上，但是那个只画像并且回头用画像赚钱的鳖孙，乱棍赶走；头条那个案例相当于闭门接客，不准只看不上，有人捅窗户纸偷偷看：这俩区别太大了。