Python中如何爬取天眼查网站数据

这个网站一个账号查询的次数是不是有限制啊? 限制多少次?

是不是需要买 vip 账号爬?


Python中如何爬取天眼查网站数据
42 回复

做爬虫出生的公司,你要爬,阻力太多了


我无法理解你的问题。

接口加密了 密钥有效期 1 分钟

想多了。老老实实买接口吧,卖数据接口的网站会让你爬?

去年爬过,但是没有批量,cookie 过期好像时间还挺久的,可能我爬的比较少吧

我这是找他们商务合作的

他们的数据也是从郭嘉企业信息网爬的吧,不如直接从源头入手

只需要简单的信息就行可以直接爬工商局

是直接从工商那边获取数据,不是通过爬的。

反爬虫很厉害的,无所不用其极,验证码也很难,爬几百个没问题,多了代理池都爬不下来。

天眼查最开始应该是自己爬的,后面为了数据合法找了个背景做靠山。

是需要买 vip,我公司现在是用 Java 爬的

… 你去爬一个爬虫网站

小心给你一个律师函

要不考虑一下行政渠道的爬虫?

以前爬过,应该可爬,可能需要上 phatomjs

自从要登录注册后,就基本不能爬了,给钱买数据吧。

如果已经有一个大的公司名列表,逐个搜索爬不难,把代理、cookie 池、验证码识别都弄上。

极验证就不好弄

买 vip 的原因是限制次数吗?

极验很简单啊

主要怕限制账号次数啊

主要看 cookie 爬有没有账号爬取次数

总感觉爬数据这事,大公司做是废物利用地商业行为,个人爬就是抢数据地流氓行为:我脑袋到底哪里出问题了。

关键很多说买 vip 爬不知道为啥

可能是因为单次搜索的页数限制吧

有的信息不是没 vip 不显示么

他爬别人,你爬他,别人爬你

脱裤更省事

爬过企查查,字体被替换过了,验证码搞不定,半自动爬的。

1.8 亿条你爬他干嘛

我只爬工商数据,vip 能看到那些不显示的数据?能说一下嘛?

比如我每次搜百度 腾讯 这种公司能搜多少次,普通的账号

sry 天眼查 vip 与非 vip 在信息展示完整度没有差别 只是展示量级有差别

我之前用的另一个非 vip 信息展示才是不完整的

有这功夫,你不如应聘进去,内网直接往外倒腾。

牛逼,支持爬他!!!

谁能搞定验证码

有想法就干

https://www.lagou.com/jobs/1570819.html

反爬虫工程师

职位描述

参与公司网站数据反爬虫策略的制定和优化。

负责反爬虫功能模块的代码实现及测试工作。

监控网站异常访问并及时调整相关策略。

天眼查数据随便抓。。。

vip ip 白名单 随便调用接口

优秀啊

爬一会整个网页开始部分字乱序,后面乱序的会越来越多

回到顶部