Python中有哪些开源的图片OCR文字识别库？

Python里做OCR的开源库，这几个是主流选择：

Tesseract：这是老牌王者，Google维护的OCR引擎。Python里用pytesseract包调用它。安装简单，支持多语言，但纯Tesseract对复杂版面或模糊图片效果一般。
EasyOCR：这个现在很火。它底层用PyTorch，自带预训练模型，开箱即用，对多语言（包括中文）支持很好，识别速度不错。代码写起来也简单。
PaddleOCR：百度出的，功能很全。支持文本检测、方向分类、文字识别一整条流水线。中文场景下表现很强，精度高，也支持多语言。有轻量版模型，部署方便。
Keras-OCR：如果你熟悉Keras/TensorFlow，这个工具包用起来很顺手。它提供完整的训练pipeline，你可以用自己的数据微调模型。

简单建议：通用场景选EasyOCR，中文优先用PaddleOCR。

想说的是 ocr 吧？

1 楼说的那个我试过，对英语还行，其他语言不是很准。
推荐 google cloud 提供的 api，准确率很高。
https://cloud.google.com/vision
https://github.com/GoogleCloudPlatform

google vision 我碰到的问题是不能判断段落。它是把每一个换行都当成一个句子的结束。

百度有一个，感觉准确率也很高。

百度的开源吗？之前他们出过一款涂书笔记用的应该就是他们的 ocr 库，但是不知道什么原因下架了

不开源，可以参考体验一下。http://ai.baidu.com/tech/ocr/general

百度这个挺厉害。。我用我们教务系统那种有噪点的图测试一下，识别率挺高

http://www.zmonster.me/2015/06/10/baidu_ocr_api_usage.html

不知道为啥，一说起百度的 OCR 我就想起这份测试里的最后一个样例

zlyuanteng 12楼作者

https://github.com/tesseract-ocr/tesseract
4.0 支持 LSTM 了，默认识别参数挺多，可以理解下都测试比较下用途。
默认有中文，觉得不好用的话，中文可以自己考虑训练。
https://github.com/JinpengLI/deep_ocr
这个没用过，看 readme.md 说是中文效果不错，你可以试试看，对比下。

zlyuanteng 13楼作者