Python爬虫程序总是意外停止,如何排查和解决未知原因导致的崩溃问题?
用 python 写了一个爬虫,就是简单的网页抓取,在运行一天左右后就自己停了,没有出错信息。在 google 一番后看到某个人说因为调试输出过多(也就是 print 函数)导致缓冲区溢出,所以意外停止。问一下大家有可能是这个问题吗?看大家写了那么多爬虫一直 print 也没有这种情况啊。
Python爬虫程序总是意外停止,如何排查和解决未知原因导致的崩溃问题?
9 回复
流程里多打几次 log 就能看出问题了
核心思路:先捕获崩溃现场,再针对性解决。
爬虫意外停止通常由网络、数据解析、资源限制或网站反爬导致。别瞎猜,用下面的代码框架把错误“挖”出来:
import requests
import traceback
import logging
from time import sleep
# 1. 设置详细日志,记录崩溃瞬间的状态
logging.basicConfig(
level=logging.INFO,
format='%(asctime)s - %(levelname)s - %(message)s',
handlers=[
logging.FileHandler('crawler_crash.log'), # 关键:所有错误写入文件
logging.StreamHandler()
]
)
def safe_request(url, retry=3):
"""带异常捕获和重试的请求封装"""
for attempt in range(retry):
try:
resp = requests.get(url, timeout=10)
resp.raise_for_status()
return resp
except requests.exceptions.RequestException as e:
logging.warning(f"请求失败第{attempt+1}次: {e}")
if attempt == retry - 1:
raise # 重试用完才真正抛出
sleep(2 ** attempt) # 指数退避
def main_crawler():
# 2. 在爬虫主循环外包裹全局异常捕获
try:
while True:
try:
# 你的爬虫逻辑放在这里
resp = safe_request("https://example.com")
data = resp.json() # 模拟可能崩溃的解析
# ... 处理数据
except KeyboardInterrupt:
logging.info("用户手动停止")
break
except Exception as e:
# 3. 关键:打印完整堆栈,而不是仅错误信息
logging.error(f"循环内异常: {e}\n{traceback.format_exc()}")
sleep(5) # 避免崩溃后疯狂重试
continue
except Exception as e:
# 4. 终极捕获,防止程序静默退出
logging.critical(f"爬虫完全崩溃: {e}\n{traceback.format_exc()}")
# 可以在这里添加状态保存逻辑
if __name__ == "__main__":
main_crawler()
排查步骤:
- 运行上面的框架,等它再次崩溃
- 立刻打开
crawler_crash.log文件 - 看最后几行的 ERROR 或 CRITICAL 日志,特别是
traceback.format_exc()输出的堆栈信息
常见崩溃点及快速定位:
- 看到
ConnectionError/Timeout→ 网络问题或IP被限制 - 看到
JSONDecodeError→ 页面返回的不是合法JSON,检查请求头或封禁 - 看到
KeyError: 'xxx'→ 数据结构变化,你的解析代码跟不上 - 看到
MemoryError→ 数据没及时清理,内存泄漏 - 看到
KeyboardInterrupt→ 你按了Ctrl+C,不是崩溃
一句话建议:先把异常堆栈打出来,别靠猜。
不要 print,用 logging 模块
把所有 print 注释掉再跑一遍不就知道是不是了。。
我给你说一个可能的原因。。我当初是碰到 这种情况了。。当时我的爬虫,爬到了有人分享的 Android 开发工具包。。好几个 G 的文件。。爬虫没做判断,自己在那里下载,崩掉了。 。你做做 log ,然后多考虑特殊情况。捕捉 Exception
放弃 print , 学习一下怎么用 log 吧,设计良好的 log 比用完就删的 print 有用得多。
谢谢大家都回答,目前已经删除 print 输出调试,正在测试是不是这方面的问题,也准备从 print 转向 log
logstash 非常好用


