Python第三方库的稳定性和可靠性如何评估?
这两天写个爬虫调度的东西,用了 redis 库:
RUN pip2.7 install redis -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com
然后我的 py 脚本在一个 while 循环里面跑,跑着跑着发现就挂住了,用 strace 和 lsof 一看发现:
python2.7 292 root 0u CHR 136,1 0t0 4 /dev/pts/1
python2.7 292 root 1u CHR 136,1 0t0 4 /dev/pts/1
python2.7 292 root 2u CHR 136,1 0t0 4 /dev/pts/1
python2.7 292 root 3u sock 0,7 0t0 3629287 can't identify protocol
python2.7 292 root 4u IPv4 3628745 0t0 TCP d602b1d9c3a8:34926->---------:6379 (ESTABLISHED)
python2.7 292 root 12r CHR 1,9 0t0 3622123 /dev/urandom
[root[@d602b1d9c3a8](/user/d602b1d9c3a8) /]# strace -p 292
Process 292 attached
recvfrom(4,
在接收某个 redis 的 tcp 调用地方卡住了,于是跑回去看 while 循环里面对 redis 的操作不是 set 就是 get,唯一一个值得怀疑的地方是:
while True:
# blpop
now = time.time()
diff = now - self.pre
bpopTime = self.loopTime - diff
bpopTime = int(bpopTime)
if bpopTime <= 0:
break;
if bpopTime > self.loopTime:
bpopTime = self.loopTime
req_json_tuple = self.redis.blpop("ktgg_node_id_list:" + self.log.node_id, bpopTime)
没问题啊,我这个超时时间只能是 1、2、3、4、5 这几个正整数,神了
Python第三方库的稳定性和可靠性如何评估?
怎么这个策略没用啊,说好的想问一个问题先 diss 一下就能有解决方案上门的呢
评估Python第三方库的稳定性和可靠性,我一般看这几个硬指标:
-
下载量和活跃度:
pip install的次数和近期更新频率,PyPI和GitHub上都能看到。长期不更新或者突然爆火的要小心。 -
版本号:看是不是已经过了1.0版本。通常1.0以上的API比较稳定,0.x版本的可能会经常变。
-
测试覆盖率和CI状态:GitHub上有没有CI/CD,测试覆盖率多少。有完整测试套件和自动化测试的库更靠谱。
-
文档和社区:文档是否齐全,Stack Overflow上相关问题多不多,issue和PR的处理是否及时。
-
依赖关系:依赖多不多,有没有容易冲突的依赖。用
pipdeptree看看依赖树。 -
许可证:确认许可证是否适合你的项目,尤其是商业项目。
-
代码质量:直接看源码,结构是否清晰,有没有明显的代码异味。
我常用的检查命令:
# 查看库信息
pip show <package_name>
# 查看依赖树
pipdeptree
# 查看更新历史(GitHub)
git log --oneline -n 10
简单说:看数据、看代码、看社区。
单个循环能卡住的话代码问题吧? QPS 上不去才是性能问题。当然,官方文档里说了,想性能高的话用 hiredis。
你 debug 好歹也要用 pdb 看看到底卡在哪里了吧,另外看到你用了 time.time()那么请检查一下你的系统时间是否在运行时被修改过
因为你这是地图炮啊
得说 redis 不行,这样会有人上门
Block,走好不送
一出问题就怀疑三方模块 你还写个屁代码
再说 redis 模块就那么点代码 redis 基本操作也就那么多 随便花点时间就看完了
用那个 issue 里面的 hack 办法跑了一晚上效果如下:<br>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>2018-01-20 03:08:13 [warning][] Timeout reading from socket<brwarning][] Timeout reading from socket<br>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>2018-01-20 05:26:30 [warning][] Error 111 connecting to 101.37.145.10:6379. Connection refused.<brwarning][] Timeout reading from socket<br>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>2018-01-20 07:41:15 [warning][] Error 111 connecting to 101.37.145.10:6379. Connection refused.<brwarning][] Timeout reading from socket<brwarning][] Timeout reading from socket<br>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><br>
只是我给所有 redis 操作设置 hack 了一个 socket 超时,这样 brpop 超时了就硬返回了。。。。大家注意到这个 redis 的 tcp 连接我是没有断的,也就是说的确是这个库底层的问题
主要是 python 的库给了我一些麻烦,比如 mysql 官方的那个客户端,连着连着就断了,然后就只能这样:<br> try:<br> cursor = self.db.cursor()<br> cursor.execute(sql)<br> cursor.close()<br> except Exception, e:<br> #连接可能会断,这里从连一下<br> self.db = connector.connect(**getMysqlConfig())<br> cursor = self.db.cursor()<br> cursor.execute(sql)<br> cursor.close()<br>
比较 dirty
IO 会阻塞超时很正常,底层库不可能自动重试,只有应用层才知道什么时候能重试
什么连接都连着连着断了 和 Python 库毛关系
做了心跳没 写了池化了没
随便开撸的代码就做好出错的准备 烂代码怪库头上
PHP 写多了吧?
写 py 不太多,php 写的多一点
大家好我又来了,结果 php 的 pdo 库也是连接 mysql 久了会弹异常,不过 predis 的 blpop 倒没啥问题。。。。这说了了 cli 进程长时间运行需要注意保存连接

