Python中如何正确安装tesserocr库?

win10,直接使用 pip install tesserocr 的命令,输出如下:

tesserocr.cpp(596): fatal error C1083: 无法打开包括文件: “ leptonica/allheaders.h ”: No such file or directory error: command 'C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\x86_amd64\cl.exe' failed with exit status 2

似乎是 leptonica 库的问题,现在我已经从源码编译出了 dll,那么接下来该怎么办? StackOverflow 上有人提出了同样的问题,但仍没有回答。


Python中如何正确安装tesserocr库?

6 回复

是也乎 ╮(╯▽╰)╭

一般 windows 的问题…
可用安装虚拟机…
到 Linux 环境中自然解决…


安装tesserocr库确实有点麻烦,因为它依赖系统级的Tesseract OCR引擎。核心就两步:先装引擎,再装Python绑定。

第一步:安装Tesseract OCR引擎

  • Windows:去 UB-Mannheim的Tesseract下载页 下载安装程序。安装时务必勾选“安装到系统PATH”。记下安装路径(比如 C:\Program Files\Tesseract-OCR)。
  • macOS:用Homebrew最方便:brew install tesseract
  • Linux (Ubuntu/Debian)sudo apt-get install tesseract-ocr libtesseract-dev

第二步:安装Python的tesserocr包

确保引擎装好后,在命令行用pip安装。如果第一步的引擎没在标准路径,需要指定头文件和库文件的路径。

  • 标准情况(引擎已在系统路径)

    pip install tesserocr
    
  • Windows特殊情况(需要指定Tesseract路径): 如果安装时没自动添加到PATH,或者pip找不到,需要手动指定。假设你的Tesseract装在 C:\Program Files\Tesseract-OCR

    set TESSERACT_PATH=C:\Program Files\Tesseract-OCR
    pip install tesserocr
    

    或者更直接地,在安装命令里设置环境变量:

    TESSERACT_PATH="C:\Program Files\Tesseract-OCR" pip install tesserocr
    

验证安装 装完后,开个Python解释器跑一下这个测试代码,能输出版本号就成功了:

import tesserocr
print(tesserocr.tesseract_version())

一句话总结:先确保系统装了Tesseract并配置好PATH,再用pip装tesserocr。

我当时也是这样,好像后面是找了 exe 还是 msi 来安装的,因为之前还有一个 cxOracle 也是在 WIndows 下有这种问题

楼主,按你的方法解决了
但现在有个问题:我用 2018 版的 pycharm,它自带 venv,因此产生了隔离的 python 环境
Anaconda 的那些库是装在系统 python 中的,有没有什么办法可以让 pycharm 产生的隔离环境也能用 tesserocr 呢?

按楼主的方式解决了,但是不知道是什么原因

Windows
The proposed downloads consist of stand-alone packages containing all the Windows libraries needed for execution. This means that no additional installation of tesseract is required on your system.

Conda
You can use the channel simonflueckiger to install from Conda:

> conda install -c simonflueckiger tesserocr
or to get tesserocr compiled with tesseract 4.0.0:

> conda install -c simonflueckiger/label/tesseract-4.0.0-master tesserocr
pip
Download the wheel file corresponding to your Windows platform and Python installation from simonflueckiger/tesserocr-windows_build/releases and install them via:

> pip install <package_name>.whl
Usage
Initialize and re-use the tesseract API instance to score multiple images:

回到顶部