Python爬虫现在公司写爬虫的风险有多大?还能抓吗?
看了篇文章 https://www.yuanrenxue.com/crawler/web-crawler-law.html 里面讲了有公司抓今日头条数据,被今日头条告了, 以《刑法》第 285 条:非法获取计算机信息系统数据罪,被判有期徒刑,嚓 被判刑依据是“修改 UA,绕开访问频率控制”,写爬虫这不是常用手段吗????? 这下写爬虫前,岂不是先要去读一下刑法呀,呃呃
Python爬虫现在公司写爬虫的风险有多大?还能抓吗?
要低调????
现在写爬虫确实得悠着点,风险主要来自法律层面。
《反不正当竞争法》和《数据安全法》出台后,绕过技术措施、抓取非公开数据、干扰网站运行都可能被告。
特别是大规模爬取商业数据、绕过登录或验证码、违反robots协议,风险很高。
技术上当然还能抓,但得守规矩:
- 遵守robots.txt,控制请求频率,别把人家服务器搞崩了。
- 只抓公开数据,避开个人隐私和明确声明禁止爬取的内容。
- 用正规API优先,很多平台提供了数据接口。
简单说就是:能抓,但得合法合规地抓。
去判决文书网看看,多呢,特别是网安法施行以后。
应该是要看爬虫爬的数据是什么数据, 还有是否盈利
这里判刑的是绕过了身份验证的吧,正常爬公开的数据也违法?
背后一凉,我要辞职
如果法律上出现非法这个词而且没有解释的话。很搞笑啊。
不知道有没有谁知道详情,印象里判决书那段确实很扯,但是实情是抓数据的人是头条出来的,应该是利用了头条内部的什么漏洞抓的数据,不是爬公开数据。另外,如果判决真的就是那样成立的,那其实百度也可以被套进去。。
如果触犯刑法,那就肯定 GG。
显然违法的。。。 你多关心一下网络安全法和判例吧
判决文书里写得很模糊,感觉像绕开对方的访问控制策略就会遭殃。。。。。。。
能再阐述多一点么
如果绕开访问控制策略就会判刑,那么必须公开自己的访问控制策略才行啊,否则我怎么知道是不是不小心歪打正着的
百度等搜索引擎或成为最大的被判刑者
2333333333
文章的案例里面,写爬虫的小公司因为 Linkedin 反爬虫而告 Linkedin,法院还判胜诉了。
结论是“如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。”
黑人问号????
那个是讲的国外反例吧。。
天眼查爬各大.政.府.部.门服务器的数据,怎么就没人管呢?还公开贩.卖企业负责人姓名、电话…
网络爬虫(英语:web crawler ),也叫网络蜘蛛( spider ),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。……网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。……不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用 robots.txt 文件之类的方法避免访问。 —— 摘自维基百科 https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2
楼主你那不叫作爬虫,你那是恶意抓数据,从来就没合法过。
Linkedin 案例,那个小公司是用正常的爬虫去爬,然后自己分析(简单得说就是高级人肉搜索),Linkedin 就加了手段,只让搜索引擎爬,不让那小公司爬。Linkedin 相当于开门接客,大家都可以只看不上,但是那个只画像并且回头用画像赚钱的鳖孙,乱棍赶走;头条那个案例相当于闭门接客,不准只看不上,有人捅窗户纸偷偷看:这俩区别太大了。
这种文章的目的不是为了真理和正确,也不是为了教育读者,能吸引更多眼球就是胜利。所以看看就好。
黑客和爬虫行为上虽然有时很接近,但是本质是非常不同的,不能听见喇喇蛄叫就不种庄稼啦。
得看你爬什么数据,反正我见过的搞爬虫的,爬敏感数据的不是没有(更有甚者利用某些漏洞,比如越权、未授权的接口等)。
其实这行业这么乱,也该整顿整顿了。
搞爬虫的很多,主要看你爬什么以及对方是不是在意了
百度地图爬大众点评数据,被判赔了几百万
李彦宏不用坐牢吗
我觉得应该是一个是看原网站的数据保留等级吧,另一个是看数据爬了怎么用,如果是免登陆就默认随便爬,如果你爬的时候又是模拟用户登陆又是绕过验证码又是避免浏览频率限制就有些问题了,如果是爬竞争公司的数据放到自己的平台上并作为盈利,这被告妥妥的。
突破 APPKEY 或 SecretKEY 的验证,及它的访问频率限制(如果有)等做法均可以被视为非法
大公司能赔钱免灾吧
小公司不会被告,大公司不怕被告
是这个理
还有非法入侵他人计算机罪。所有爬虫公司要开高点。。
爬本身不存在违法与否,关键看用途,你爬了今日头条数据做语料分析,谁会来告你啊,但你做个今日头条竞品,人家就算买通法官也要搞死你,有没有法律都不重要,参考珊瑚虫 QQ 案
完了,我抓了 bing 的每日的图,bing 会不会告我啊。。。(doge),https://wallpaper.wispx.cn
今天同事还跟我讨论呢,如果你自己搭网站,爬虫新闻放到自己网站上,里面再放上谷歌、FB 的广告,然后自己就能运营起来赚钱了。。。。
这绝壁要遭
合情合法就不会有反爬虫了
假如目标网站是非盈利,公益性,便民性的,然后我爬过来的数据也是用于便民,非盈利的话,应该没事吧。
爬一堆新闻放自己的网站,做好了就是头条了呗
获取未授权的数据就是违法,今日头条的新闻是它的核心 IP 了。
我朋友在国企做爬虫,不知道有没有企业敢告国企
模拟加密参数直接从接口访问算吗?
今日头条之前的新闻还全是未授权抓取的
python 写爬虫好用么,我没感觉,架构方法不行吧?
未授权?我的手机号我没有授权还不是分分钟一个推销短信。
我感觉有点危言耸听了吧,比如有人在 githunb 上传的一些开源代码被人非法利用,那如果这个人违法被抓了,是否还会追溯到这个开源代码的人身上去呢
大把的百度云爬虫站,应该都是非法抓取吧
利用“爬虫”抓视频 法院审结首例非法盗抓数据案
https://www.cnbeta.com/articles/tech/803327.htm
重点是不要把服务器爬到负载, 不然人家肯定会治你;

