[求助]Python爬虫程序假死问题如何解决

大概是这样的
Python3.5，for 循环里面用 requests 下载页面
大概 20 分钟后程序假死，表现出以下现象：

按 Ctrl+C 无反应，只能结束掉进程
无任何报错
结束掉以后重新启动可正常运行
电脑已经设置为禁止休眠
多开运行时不同进程停止的时间不一样

不排除网站限制以及网络原因造成的问题
请问大家有没有什么解决问题的思路
多谢
[求助]Python爬虫程序假死问题如何解决

htzhanglong 1楼

我感觉还是你电脑的问题吧，你换台电脑试试。看你的描述的话看不出什么别的问题，最好还是贴出代码。

sinazl 2楼

帖子没给代码，我只能说个大概。这种问题多半是网络请求卡住了，或者解析HTML的时候进了死循环。

最常见的是requests.get()没设timeout，或者解析库（比如BeautifulSoup、lxml）处理某些畸形HTML时卡住。用多线程/异步时，如果没处理好异常或资源竞争，线程/协程挂起也会导致程序“看起来”死了。

给你个最简单的排查方向：给所有网络请求加上超时，用try-except包起来，关键地方打日志。 比如：

import requests
from requests.exceptions import Timeout, RequestException
import logging

logging.basicConfig(level=logging.INFO)

try:
    # 连接超时和读取超时都设置
    resp = requests.get('http://example.com', timeout=(3.05, 10))
    resp.raise_for_status()
except Timeout:
    logging.error("请求超时了")
except RequestException as e:
    logging.error(f"请求出错: {e}")
except Exception as e:
    logging.error(f"其他错误: {e}")

如果是异步爬虫（aiohttp），同样要设置超时，并确保正确使用asyncio.wait_for。用Selenium的话，记得加显式等待（WebDriverWait），别用time.sleep。

另外，检查下是不是内存/CPU爆了，可以用top或任务管理器看看。有时候是爬太快被网站封了，请求一直没响应。

总结：先加超时和异常处理，再打日志定位。

wuwangju 3楼

首先把代码优化了吧，for 循环里面用 requests

ionicwang 4楼

手动处理下 signal

sinazl 5楼

设置 timeout

sinazl 6楼

看到很多朋友都在问爬虫是一种什么动物，那么今天我在这里就给大家讲解一下吧。爬虫是一种存在于互联网的一种虫。就像计算机病毒是一种存在于计算机的病毒。要解决计算机病毒，必须给计算机吃药。那么同理，要消灭爬虫，必须给互联网的这种虫吃杀虫剂。爬虫有一个比较狡猾的特点，就是遇到未知的食物。会假装自己已经死了，就是俗称的假死。所以解决你这个问题的方法就是加大杀虫剂的剂量。

wuwangju 7楼

如果多线程可能是死锁
还遇到过一种情况是同一个脚本在一台电脑上完全没问题，另一台就时不时假死，怀疑是 python 和系统的关系

songsunli 8楼

换台电脑试试？

itying888 9楼

你给 request 加个 timeout，官方文档里面讲如果在没有 timeout 的情况下 tcp 连接不断的话 request 会一直挂起（没记错的话是这么描述的）
2. 打 log，看爬虫是请求哪条 URL 时候被挂起的，尽量复现漏洞
3. 上面搞不定的话可以贴一小段代码上来，楼下讲可以给你解决

sinazl 10楼

linux 还是 windows, 生成 dump 看调用堆栈

caililin 11楼

感谢各位的回复，的确是 timeout 的问题