Python开源项目免费爬虫代理框架 IPProxyTool 如何使用,请各位 V 友 敬请雅正、不舍赐教~

使用 scrapy 爬虫抓取代理网站,获取大量的免费代理 ip 。过滤出所有可用的 ip ,存入数据库以备使用。

从项目开源以来收到了各位 V 友大神的指点,也不断的优化完善羡慕,目前在第一次开源之后做出了如下重大更改:

  • 添加验证次数,如果验证次数越大,表示该代理 ip 越稳定
  • 多进程分别验证每一个站点,比如 豆瓣、京东 是在两个不同的进程同时验证,更加保证了代理 IP 的有效性
  • 更改了 mysql 连接库,从 mysql-connector-python 换成了 pymysql ,并且插入支持事务
  • 完善了服务器接口参数
  • 添加了更多代理 IP 站点,目前大概支持 10 个免费代理 IP 站点

github 地址: https://github.com/awolfly9/IPProxyTool

请各位 V 友继续敬请雅正、不舍赐教~

PS:开源真的让我认识了很多 V 站的朋友,也让我受益匪浅,如果你对项目有任何的意见和建议,欢迎加我微信指点 QXdvbGZseQ==(base64)


Python开源项目免费爬虫代理框架 IPProxyTool 如何使用,请各位 V 友 敬请雅正、不舍赐教~

30 回复

先收藏了,主要想看看网络这块编程怎么写


用IPProxyTool很简单,主要就三步:装依赖、跑起来、调代理。

先装好依赖:

pip install requests beautifulsoup4 lxml

把项目clone下来后,直接运行主文件就能开始爬免费代理:

# 运行爬虫抓取代理
python IPProxyTool.py

程序跑起来后,默认会在本地的8000端口启动一个API服务。你在代码里这样调用就能拿到随机代理:

import requests

def get_proxy():
    try:
        resp = requests.get('http://127.0.0.1:8000/random')
        if resp.status_code == 200:
            return resp.json().get('proxy')
    except:
        return None

# 使用代理访问网站
proxy = get_proxy()
if proxy:
    proxies = {
        'http': f'http://{proxy}',
        'https': f'https://{proxy}'
    }
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    print(response.text)
else:
    print("没拿到代理,检查下服务启动没")

这框架自己会验证代理是否有效,你直接用就行。注意免费代理稳定性一般,关键业务得配个备用方案。

总结就一句:这工具适合快速搭个代理池,省得自己到处找代理。

可以加我微信,一起进步哦~

先收藏。。。

已 star

对于我们这些不会 Python 的,作者可不可以做成 API 返回 json 的格式供我们调用?

有的,但是现在没有开放,可以私聊我

代理网站给的免费代理 IP 可用性如何?之前弄过类似,发现这种免费的 IP 可用性非常差后来就放弃了。现在 Scrapy 提供的 Crawlera (付费的,购买的是 25 刀那个 plan ),感觉很不错。

如果可以的话方便提供 python3 的支持吗?

在后续会更新,目前主要是我的开发环境都是在 python 2.7.12

代理网站给的代理 ip 多半是不靠谱的,但是还是有少量漏网之鱼可以使用,而且这些还是比较稳定的,所以需要不断的验证抓取到的代理 ip

我在项目刚开始的时候参考了 IPProxyPool ,后来不断的更新完善,现在已经和 IPProxyPool 是两种不同的思路了

这些网站的免费 IP 有效率不到 10%,收费的有效 IP 不到 30%

国外的免费网站提供的代理 IP 有效率高很多,国内的需要自己去洗出有效的 IP

前几个月好像就用过,感觉还不错;免费的 IP 会不会有的 IP 蜜罐

之前就在用,但 ip 还是太少了,毕竟是免费的

现在 IP 增多了,之前设置删除的时间太短了

已经 star 过两天放假了再看看~

我以为大部分都是蜜罐

推荐一个?我只需要国内的 ip 地址的

看了一下不错,可惜不喜欢 mysql

现在的年轻人都不知道 proxyhunter 了吧

还真没有听过。马上查一下。感谢赐教。

后续会支持其他数据库。

代理猎手赞一个, 12 年的时候还在用,很老的软件,当年也是扫描验证代理的精品

![]( )
boos douban liepin 这些表名什么意思额

额 不用回我,晓得咯 ![]( )

所以仔细看 readme 还是有必要的 😝

OK, 给 star

回到顶部