Python开源项目免费爬虫代理框架 IPProxyTool 如何使用,请各位 V 友 敬请雅正、不舍赐教~
使用 scrapy 爬虫抓取代理网站,获取大量的免费代理 ip 。过滤出所有可用的 ip ,存入数据库以备使用。
从项目开源以来收到了各位 V 友大神的指点,也不断的优化完善羡慕,目前在第一次开源之后做出了如下重大更改:
- 添加验证次数,如果验证次数越大,表示该代理 ip 越稳定
- 多进程分别验证每一个站点,比如 豆瓣、京东 是在两个不同的进程同时验证,更加保证了代理 IP 的有效性
- 更改了 mysql 连接库,从 mysql-connector-python 换成了 pymysql ,并且插入支持事务
- 完善了服务器接口参数
- 添加了更多代理 IP 站点,目前大概支持 10 个免费代理 IP 站点
github 地址: https://github.com/awolfly9/IPProxyTool
请各位 V 友继续敬请雅正、不舍赐教~
PS:开源真的让我认识了很多 V 站的朋友,也让我受益匪浅,如果你对项目有任何的意见和建议,欢迎加我微信指点 QXdvbGZseQ==(base64)
Python开源项目免费爬虫代理框架 IPProxyTool 如何使用,请各位 V 友 敬请雅正、不舍赐教~
先收藏了,主要想看看网络这块编程怎么写
用IPProxyTool很简单,主要就三步:装依赖、跑起来、调代理。
先装好依赖:
pip install requests beautifulsoup4 lxml
把项目clone下来后,直接运行主文件就能开始爬免费代理:
# 运行爬虫抓取代理
python IPProxyTool.py
程序跑起来后,默认会在本地的8000端口启动一个API服务。你在代码里这样调用就能拿到随机代理:
import requests
def get_proxy():
try:
resp = requests.get('http://127.0.0.1:8000/random')
if resp.status_code == 200:
return resp.json().get('proxy')
except:
return None
# 使用代理访问网站
proxy = get_proxy()
if proxy:
proxies = {
'http': f'http://{proxy}',
'https': f'https://{proxy}'
}
response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
print(response.text)
else:
print("没拿到代理,检查下服务启动没")
这框架自己会验证代理是否有效,你直接用就行。注意免费代理稳定性一般,关键业务得配个备用方案。
总结就一句:这工具适合快速搭个代理池,省得自己到处找代理。
可以加我微信,一起进步哦~
先收藏。。。
对于我们这些不会 Python 的,作者可不可以做成 API 返回 json 的格式供我们调用?
代理网站给的免费代理 IP 可用性如何?之前弄过类似,发现这种免费的 IP 可用性非常差后来就放弃了。现在 Scrapy 提供的 Crawlera (付费的,购买的是 25 刀那个 plan ),感觉很不错。
如果可以的话方便提供 python3 的支持吗?
在后续会更新,目前主要是我的开发环境都是在 python 2.7.12
所以,和 https://github.com/qiyeboy/IPProxyPool 的区别是?
代理网站给的代理 ip 多半是不靠谱的,但是还是有少量漏网之鱼可以使用,而且这些还是比较稳定的,所以需要不断的验证抓取到的代理 ip
我在项目刚开始的时候参考了 IPProxyPool ,后来不断的更新完善,现在已经和 IPProxyPool 是两种不同的思路了
这些网站的免费 IP 有效率不到 10%,收费的有效 IP 不到 30%
国外的免费网站提供的代理 IP 有效率高很多,国内的需要自己去洗出有效的 IP
前几个月好像就用过,感觉还不错;免费的 IP 会不会有的 IP 蜜罐
之前就在用,但 ip 还是太少了,毕竟是免费的
现在 IP 增多了,之前设置删除的时间太短了
已经 star 过两天放假了再看看~
我以为大部分都是蜜罐
推荐一个?我只需要国内的 ip 地址的
看了一下不错,可惜不喜欢 mysql
现在的年轻人都不知道 proxyhunter 了吧
后续会支持其他数据库。
代理猎手赞一个, 12 年的时候还在用,很老的软件,当年也是扫描验证代理的精品

boos douban liepin 这些表名什么意思额
所以仔细看 readme 还是有必要的 😝



)