Python爬虫效率问题如何优化？

行业领域
不限
人工智能区块链大数据医疗健康教育培训文娱传媒消费升级金融电子商务企业服务 VR/AR 旅游户外餐饮业房产家居汽车交通体育健身生活服务食品饮料物联网硬件游戏生产制造物流运输农业批发零售先进制造社交社区工具软件服装纺织建筑开采环保能源电力政务及公共服务科研及技术服务

下面是时间一年的循环

这样 365 天*35 行业。在 selenium 点击如何提高效率？ aiohttp ？如果是多台机器是是不是 dokcer+spalsh ？
Python爬虫效率问题如何优化？

wuwangju 1楼

如果考虑 selenium 或者 splash 的话就不要追求效率了

h691938207 2楼

核心思路：并行化 + 连接复用 + 减少阻塞

直接上代码，用 aiohttp + asyncio 替代 requests，这是解决爬虫效率问题的标准方案：

import asyncio
import aiohttp
from datetime import datetime

async def fetch(session, url):
    """异步获取单个页面"""
    try:
        async with session.get(url, timeout=10) as response:
            return await response.text()
    except Exception as e:
        print(f"Error fetching {url}: {e}")
        return None

async def worker(session, queue, results):
    """工作协程：从队列获取URL并处理"""
    while True:
        url = await queue.get()
        html = await fetch(session, url)
        if html:
            # 这里添加你的解析逻辑
            results.append(len(html))
        queue.task_done()

async def main(urls, concurrent_workers=50):
    """主函数：管理异步任务"""
    queue = asyncio.Queue()
    results = []
    
    # 将所有URL放入队列
    for url in urls:
        await queue.put(url)
    
    # 创建连接池（重点！复用TCP连接）
    connector = aiohttp.TCPConnector(limit=100, force_close=False)
    async with aiohttp.ClientSession(connector=connector) as session:
        # 启动工作协程
        workers = [
            asyncio.create_task(worker(session, queue, results))
            for _ in range(concurrent_workers)
        ]
        
        # 等待队列清空
        await queue.join()
        
        # 取消所有worker
        for w in workers:
            w.cancel()
    
    return results

# 使用示例
if __name__ == "__main__":
    # 你的URL列表
    urls = [f"https://httpbin.org/get?page={i}" for i in range(100)]
    
    start = datetime.now()
    results = asyncio.run(main(urls, concurrent_workers=50))
    elapsed = datetime.now() - start
    
    print(f"爬取 {len(urls)} 个页面，耗时 {elapsed.total_seconds():.2f} 秒")
    print(f"平均每个页面 {elapsed.total_seconds()/len(urls):.3f} 秒")

关键优化点：

异步IO：asyncio 在等待网络响应时不会阻塞，可以同时处理多个请求
连接池：TCPConnector 复用TCP连接，避免重复三次握手
并发控制：通过 concurrent_workers 参数控制并发数，避免被封IP
队列管理：任务队列确保所有URL都被处理

如果同步代码不能改，用 ThreadPoolExecutor 凑合：

from concurrent.futures import ThreadPoolExecutor
import requests

def fetch_sync(url):
    return len(requests.get(url).text)

with ThreadPoolExecutor(max_workers=20) as executor:
    results = list(executor.map(fetch_sync, urls))

一句话总结：用异步IO替代同步请求是本质提升。