Python3中无法安装pytesseract包怎么办?

32 位的 WINDOW7,PYTHON3,安装 pytesseract-0.1.7.tar.gz 时提示缺少 olefile 包,但是在 pypi 上找 olefile 包却提示被删除,是不是 PYTHON3 下就不能安装 pytesseract 呢?
谢谢指点!
Python3中无法安装pytesseract包怎么办?

6 回复

可以用 exe 安装,详见: http://www.w2bc.com/article/146617


问题核心:pytesseract 是一个调用 Tesseract OCR 引擎的 Python 包装器,它本身不是一个纯 Python 包,需要先安装 Tesseract OCR 引擎。

直接 pip install pytesseract 只会安装这个 Python 接口包,但如果你没有安装底层的 Tesseract 程序,运行时会报错 TesseractNotFoundError

解决方案分两步:

1. 安装 Tesseract OCR 引擎(这是必须的)

  • Windows:UB-Mannheim 的 Tesseract 下载页面 下载安装程序(.exe)。安装时务必记下安装路径(例如 C:\Program Files\Tesseract-OCR)。安装后需要将 Tesseract 添加到系统环境变量 PATH 中,或者在你的 Python 代码中指定路径。
  • macOS: 使用 Homebrew 最方便:brew install tesseract
  • Linux (Ubuntu/Debian): sudo apt install tesseract-ocr

2. 安装 Python 接口包

  • 在命令行中运行:pip install pytesseract

验证安装和基本使用代码: 安装完成后,用下面这段代码测试。如果没装 Tesseract 引擎,第 5 行会报错。

try:
    import pytesseract
    # 如果在 Windows 上且未将 Tesseract 加入 PATH,必须指定路径
    # pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
    
    # 测试:打印 Tesseract 版本
    print(f"Tesseract 版本: {pytesseract.get_tesseract_version()}")
    
    # 一个简单的示例:从 PIL Image 对象中识别文字
    from PIL import Image, ImageDraw, ImageFont
    
    # 创建一个简单的测试图片
    img = Image.new('RGB', (300, 100), color='white')
    d = ImageDraw.Draw(img)
    # 尝试使用默认字体,或指定一个已知存在的字体路径
    try:
        font = ImageFont.truetype("arial.ttf", 24)
    except IOError:
        font = ImageFont.load_default()
    d.text((10, 40), "Hello, Tesseract!", fill='black', font=font)
    
    # 使用 pytesseract 识别图片中的文字
    text = pytesseract.image_to_string(img)
    print(f"识别出的文字: {text}")
    
except ImportError:
    print("错误:未找到 pytesseract 包,请运行 `pip install pytesseract`")
except Exception as e:
    print(f"运行时错误: {e}")
    print("很可能是因为 Tesseract OCR 引擎未正确安装或未在 PATH 中。请完成上述第一步。")

总结:先装引擎,再装 pytesseract 包。

pip install pytesseract 没问题啊

在 ubuntu 上安装会好装一些

你需要先安装 tesseract

回到顶部