Python3中无法安装pytesseract包怎么办?
32 位的 WINDOW7,PYTHON3,安装 pytesseract-0.1.7.tar.gz 时提示缺少 olefile 包,但是在 pypi 上找 olefile 包却提示被删除,是不是 PYTHON3 下就不能安装 pytesseract 呢?
谢谢指点!
Python3中无法安装pytesseract包怎么办?
6 回复
可以用 exe 安装,详见: http://www.w2bc.com/article/146617
问题核心:pytesseract 是一个调用 Tesseract OCR 引擎的 Python 包装器,它本身不是一个纯 Python 包,需要先安装 Tesseract OCR 引擎。
直接 pip install pytesseract 只会安装这个 Python 接口包,但如果你没有安装底层的 Tesseract 程序,运行时会报错 TesseractNotFoundError。
解决方案分两步:
1. 安装 Tesseract OCR 引擎(这是必须的)
- Windows: 去 UB-Mannheim 的 Tesseract 下载页面 下载安装程序(
.exe)。安装时务必记下安装路径(例如C:\Program Files\Tesseract-OCR)。安装后需要将 Tesseract 添加到系统环境变量PATH中,或者在你的 Python 代码中指定路径。 - macOS: 使用 Homebrew 最方便:
brew install tesseract - Linux (Ubuntu/Debian):
sudo apt install tesseract-ocr
2. 安装 Python 接口包
- 在命令行中运行:
pip install pytesseract
验证安装和基本使用代码: 安装完成后,用下面这段代码测试。如果没装 Tesseract 引擎,第 5 行会报错。
try:
import pytesseract
# 如果在 Windows 上且未将 Tesseract 加入 PATH,必须指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 测试:打印 Tesseract 版本
print(f"Tesseract 版本: {pytesseract.get_tesseract_version()}")
# 一个简单的示例:从 PIL Image 对象中识别文字
from PIL import Image, ImageDraw, ImageFont
# 创建一个简单的测试图片
img = Image.new('RGB', (300, 100), color='white')
d = ImageDraw.Draw(img)
# 尝试使用默认字体,或指定一个已知存在的字体路径
try:
font = ImageFont.truetype("arial.ttf", 24)
except IOError:
font = ImageFont.load_default()
d.text((10, 40), "Hello, Tesseract!", fill='black', font=font)
# 使用 pytesseract 识别图片中的文字
text = pytesseract.image_to_string(img)
print(f"识别出的文字: {text}")
except ImportError:
print("错误:未找到 pytesseract 包,请运行 `pip install pytesseract`")
except Exception as e:
print(f"运行时错误: {e}")
print("很可能是因为 Tesseract OCR 引擎未正确安装或未在 PATH 中。请完成上述第一步。")
总结:先装引擎,再装 pytesseract 包。
pip install pytesseract 没问题啊
在 ubuntu 上安装会好装一些
你需要先安装 tesseract

