Python新手写的壁纸爬虫能运行但速度很慢，如何优化？

多线程并发

你这个爬虫慢，八成是网络请求和同步下载的锅。我直接给你个用 aiohttp 和 asyncio 改的异步版本，速度能快一个数量级。

import aiohttp
import asyncio
import os
from urllib.parse import urljoin

async def download_image(session, url, save_path):
    """异步下载单张图片"""
    try:
        async with session.get(url) as response:
            if response.status == 200:
                content = await response.read()
                with open(save_path, 'wb') as f:
                    f.write(content)
                print(f"下载成功: {save_path}")
            else:
                print(f"下载失败，状态码: {response.status}")
    except Exception as e:
        print(f"下载出错 {url}: {e}")

async def main(base_url, page_count, save_dir):
    """主异步函数"""
    os.makedirs(save_dir, exist_ok=True)
    
    # 创建异步会话，设置连接池限制避免被封
    connector = aiohttp.TCPConnector(limit=10)
    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = []
        
        for page in range(1, page_count + 1):
            # 这里替换成你实际的页面URL构造逻辑
            page_url = f"{base_url}/page/{page}"
            
            try:
                async with session.get(page_url) as response:
                    if response.status == 200:
                        html = await response.text()
                        # 这里替换成你实际的图片链接提取逻辑
                        # 示例：假设从HTML中提取了图片链接列表
                        image_urls = extract_image_urls(html)
                        
                        for i, img_url in enumerate(image_urls):
                            # 构造完整URL
                            full_url = urljoin(base_url, img_url)
                            # 生成保存路径
                            filename = f"page{page}_img{i}.jpg"
                            save_path = os.path.join(save_dir, filename)
                            
                            # 创建下载任务
                            task = asyncio.create_task(
                                download_image(session, full_url, save_path)
                            )
                            tasks.append(task)
                    else:
                        print(f"页面请求失败: {page_url}")
            except Exception as e:
                print(f"页面处理出错 {page_url}: {e}")
        
        # 并发执行所有下载任务
        await asyncio.gather(*tasks)

def extract_image_urls(html):
    """从HTML中提取图片链接（需要根据实际网站结构调整）"""
    # 这里只是个示例，你需要用BeautifulSoup或正则表达式替换这部分
    # 示例：假设图片链接在<img src="...">标签中
    import re
    return re.findall(r'<img[^>]+src="([^">]+)"', html)

if __name__ == "__main__":
    # 配置参数
    BASE_URL = "https://example.com/wallpapers"  # 替换成目标网站
    PAGE_COUNT = 5  # 要爬取的页数
    SAVE_DIR = "./wallpapers"  # 保存目录
    
    # 运行异步主函数
    asyncio.run(main(BASE_URL, PAGE_COUNT, SAVE_DIR))

核心改动：