Tesserocr 是 Python/ target=_blank class=infotextkey>Python 的一个 OCR 识别库,但其实是对Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本节我们来了解下它们的安装方式。
- 安装Tesseract
1.下载地址
http://digi.bib.uni-mannheim.de/tesseract/,建议下载v4.1.0,根据自己电脑系统位数下载对应版本,如
2.下载完成之后双击安装即可,在安装过程中可以勾选上 Additional language data 选项,安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言。
3.配置环境变量,复制安装路径,我的安装路径D:Programstesseract-ocr,界面如下:
打开我的电脑系统属性 -> 高级 -> 环境变量,把该路径配置到环境变量:
4.需要把Tesseract-OCR安装目录下的tessdata文件夹移动到python解释器目录下,否则后面使用会报错(网上也有说把tessdata添加到环境变量下,经过测试无效),笔者移动后如下:
- 安装Tesserocr
1.可以通过pip install tesserocr pillow直接安装,但是一般都会报错;
2.建议直接下载whl文件安装,下载地址
https://github.com/simonflueckiger/tesserocr-windows_build/releases,注意这里要选择与刚才安装的tesseract4.1对应的版本,同时要结合python解释器版本来最终确定下载的版本,这里笔者的python解释器为python3.9,所以最终下载如下版本
3.安装刚才下载的tesserocr,打开终端,切换到tesserocr文件下载目录,使用如下命令安装即可
pip install .tesserocr-2.5.2-cp39-cp39-win_amd64.whl