Python中如何在Windows下下载并使用Tesseract包?
WINDOWS 环境下的 PYTHON 开发,准备进行 OCR 识别,需要装 Tesseract,但是 GOOGLE 上不去,请问哪里可以下载这个工具呢?感谢!
Python中如何在Windows下下载并使用Tesseract包?
上不去 gayhub ?
tesseract-ocr/tesseract/wiki#windows
在Windows下使用Tesseract,通常不是通过Python包管理器直接安装,而是先安装Tesseract引擎本身,再安装Python的封装库。以下是具体步骤:
1. 安装Tesseract OCR引擎
- 前往UB-Mannheim的Tesseract下载页(一个可靠的Windows版本来源):
https://github.com/UB-Mannheim/tesseract/wiki - 下载适合你系统(32位或64位)的最新安装程序(例如
tesseract-ocr-w64-setup-5.3.3.20231005.exe)。 - 运行安装程序。重要:请记住安装路径(例如
C:\Program Files\Tesseract-OCR)。在安装过程中,你可以勾选安装额外的语言数据包。
2. 将Tesseract添加到系统环境变量PATH
- 将Tesseract的安装目录(例如
C:\Program Files\Tesseract-OCR)添加到系统的PATH环境变量中。这样你才能在命令行或Python代码中直接调用tesseract命令。 - 添加完成后,打开一个新的命令提示符(CMD)或PowerShell,输入
tesseract --version来验证安装是否成功。如果显示了版本信息,说明环境变量配置正确。
3. 安装Python的pytesseract库
在你的Python环境中,使用pip安装这个封装库:
pip install pytesseract
4. 在Python代码中使用
pytesseract库是对Tesseract命令行工具的Python封装。使用时,你需要通过pytesseract.pytesseract.tesseract_cmd指定Tesseract可执行文件的完整路径,或者如果你已经正确配置了PATH,库可能会自动找到它。
一个基本的使用示例如下:
import pytesseract
from PIL import Image
# 如果你没有将Tesseract添加到PATH,或者库找不到它,需要手动指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 打开一张图片
image = Image.open('your_image.png')
# 进行OCR识别,提取文本
text = pytesseract.image_to_string(image, lang='eng') # 使用英文语言包,如需中文可改为 'chi_sim'
print(text)
核心总结: 先装引擎,配好路径,再装Python库调用。
pip install 啊,自动装上顺便有 python api
https://github.com/tesseract-ocr/tesseract 我在这个页面上看不出哪个是 WINDOWS 下的安装介质。直接点击“ Clone or download ”下载下来的文件夹中也没有 WINDOWS 下的安装介质,是不是我下错链接?
win 用多了你会发现越来越坑。。
感谢!
谢谢!


