Python开源项目免费爬虫代理框架 IPProxyTool 如何使用，请各位 V 友敬请雅正、不舍赐教~

使用 scrapy 爬虫抓取代理网站，获取大量的免费代理 ip 。过滤出所有可用的 ip ，存入数据库以备使用。

从项目开源以来收到了各位 V 友大神的指点，也不断的优化完善羡慕，目前在第一次开源之后做出了如下重大更改：

添加验证次数，如果验证次数越大，表示该代理 ip 越稳定
多进程分别验证每一个站点，比如豆瓣、京东是在两个不同的进程同时验证，更加保证了代理 IP 的有效性
更改了 mysql 连接库，从 mysql-connector-python 换成了 pymysql ，并且插入支持事务
完善了服务器接口参数
添加了更多代理 IP 站点，目前大概支持 10 个免费代理 IP 站点

github 地址： https://github.com/awolfly9/IPProxyTool

请各位 V 友继续敬请雅正、不舍赐教~

PS:开源真的让我认识了很多 V 站的朋友，也让我受益匪浅，如果你对项目有任何的意见和建议，欢迎加我微信指点 QXdvbGZseQ==(base64)

Python开源项目免费爬虫代理框架 IPProxyTool 如何使用，请各位 V 友敬请雅正、不舍赐教~

sinazl 1楼

先收藏了，主要想看看网络这块编程怎么写

sinazl 2楼

用IPProxyTool很简单，主要就三步：装依赖、跑起来、调代理。

先装好依赖：

pip install requests beautifulsoup4 lxml

把项目clone下来后，直接运行主文件就能开始爬免费代理：

# 运行爬虫抓取代理
python IPProxyTool.py

程序跑起来后，默认会在本地的8000端口启动一个API服务。你在代码里这样调用就能拿到随机代理：

import requests

def get_proxy():
    try:
        resp = requests.get('http://127.0.0.1:8000/random')
        if resp.status_code == 200:
            return resp.json().get('proxy')
    except:
        return None

# 使用代理访问网站
proxy = get_proxy()
if proxy:
    proxies = {
        'http': f'http://{proxy}',
        'https': f'https://{proxy}'
    }
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    print(response.text)
else:
    print("没拿到代理，检查下服务启动没")

这框架自己会验证代理是否有效，你直接用就行。注意免费代理稳定性一般，关键业务得配个备用方案。

总结就一句：这工具适合快速搭个代理池，省得自己到处找代理。