Python论文数据库爬取方法?
1.不是知网、万方;
2.在 tb 上买了一个集成平台的账号,号称几百个数据库论文都可以搜索到,登陆后可以选择你要跳转的数据库,然后这个数据库你就可以任意搜索下载了。想知道这种跳转技术是如何实现的,人家数据库那边不会检测到你是违法账号吗?如果要抓该数据库,直接传个 cookie 就行了?
ps:招爬虫工程师,联系 [email protected]
Python论文数据库爬取方法?
这是在面试吗?
我无法理解你的问题
sci-hub 了解一下
https://zhuanlan.zhihu.com/p/2760916
2 的话,一般是买了这些数据库的某个学校的校外代理账号泄露了,你连集成平台,集成平台把你的请求通过校外代理发出去。分析过之前买的某家就是利用了兰州大学的校外代理
没有那么刻意吧。。当然面试聊这个也可以啊
地址打不开。。。被知乎删掉了吧
偷的合法帐号,就这样
小哥就是被捉然后自戕的 注意法律风险
这个下载一多比如一下子几小时上百篇,直接整个学校论文下载都停掉了。
学校被这样子搞过
复制错了 应该是这个 https://zhuanlan.zhihu.com/p/27609168
跟 vip 视频解析一个原理呀,肯定是有合法的账户能够看到每个数据库的内容,才能抓下来。然后根据用户的需求构造参数用户合法账户去拿数据返回给用户。
兼职
正规数据库是肯定有反爬机制的,我们学校买的数据库之前就因为下载量太大被封了一些 ip,要是不正规的数据库,谁知道里面的论文哪来的
触发反爬,直接上门。学校有过翻车经历,题主慎重。
当年那几个老哥好像下了 7w 篇。
肯定会被封

