Python中如何在Windows下下载并使用Tesseract包?

WINDOWS 环境下的 PYTHON 开发,准备进行 OCR 识别,需要装 Tesseract,但是 GOOGLE 上不去,请问哪里可以下载这个工具呢?感谢!
Python中如何在Windows下下载并使用Tesseract包?

9 回复

上不去 gayhub ?
tesseract-ocr/tesseract/wiki#windows


在Windows下使用Tesseract,通常不是通过Python包管理器直接安装,而是先安装Tesseract引擎本身,再安装Python的封装库。以下是具体步骤:

1. 安装Tesseract OCR引擎

  • 前往UB-Mannheim的Tesseract下载页(一个可靠的Windows版本来源):https://github.com/UB-Mannheim/tesseract/wiki
  • 下载适合你系统(32位或64位)的最新安装程序(例如 tesseract-ocr-w64-setup-5.3.3.20231005.exe)。
  • 运行安装程序。重要:请记住安装路径(例如 C:\Program Files\Tesseract-OCR)。在安装过程中,你可以勾选安装额外的语言数据包。

2. 将Tesseract添加到系统环境变量PATH

  • 将Tesseract的安装目录(例如 C:\Program Files\Tesseract-OCR)添加到系统的PATH环境变量中。这样你才能在命令行或Python代码中直接调用tesseract命令。
  • 添加完成后,打开一个新的命令提示符(CMD)或PowerShell,输入 tesseract --version 来验证安装是否成功。如果显示了版本信息,说明环境变量配置正确。

3. 安装Python的pytesseract 在你的Python环境中,使用pip安装这个封装库:

pip install pytesseract

4. 在Python代码中使用 pytesseract库是对Tesseract命令行工具的Python封装。使用时,你需要通过pytesseract.pytesseract.tesseract_cmd指定Tesseract可执行文件的完整路径,或者如果你已经正确配置了PATH,库可能会自动找到它。

一个基本的使用示例如下:

import pytesseract
from PIL import Image

# 如果你没有将Tesseract添加到PATH,或者库找不到它,需要手动指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 打开一张图片
image = Image.open('your_image.png')

# 进行OCR识别,提取文本
text = pytesseract.image_to_string(image, lang='eng')  # 使用英文语言包,如需中文可改为 'chi_sim'
print(text)

核心总结: 先装引擎,配好路径,再装Python库调用。

pip install 啊,自动装上顺便有 python api

https://github.com/tesseract-ocr/tesseract 我在这个页面上看不出哪个是 WINDOWS 下的安装介质。直接点击“ Clone or download ”下载下来的文件夹中也没有 WINDOWS 下的安装介质,是不是我下错链接?

win 用多了你会发现越来越坑。。

感谢!

谢谢!

回到顶部