编译Tesseract

发布时间 2023-04-04 15:13:05作者: 夕西行

1、编译Tesseract5.0

1.1 下载源码 Releases · tesseract-ocr/tesseract (github.com)

1.2 下载cmake最新版,安装过程记得勾选添加到环境变量。

Download | CMake

1.3 下载sw SoftwareNetwork/binaries: Mirror of sw binaries from https://software-network.org/client/ (github.com)

 

解压后,将sw.exe放到cmakebin目录里

1.4 打开cmd,输入sw setup 回车

进入到tesseract目录,输入mkdir build 回车

cd build 回车

1.5 根据VS版本选择其中一个命令运行(此步cmd会下载很久,如果报失败,此命令行多来几遍)

cmake .. -G "Visual Studio 16 2019" -A x64 -DCMAKE_INSTALL_PREFIX=ins

cmake .. -G "Visual Studio 15 2017" -A x64 -DCMAKE_INSTALL_PREFIX=ins

1.6 进入build目录,用VS打开sln进行编译

右键. SW Predefined Targets”,生成

1.7 根据编译错误,修改对应文件编码为GB2313

1.8 新建环境变量TESSDATA_PREFIX,值为tessdata的路径

1.9 查看是否成功

 .\tesseract.exe -v 版本信息

 .\tesseract.exe --list-langs 已安装的语言包

 .\tesseract.exe .\1.png result -l chi_sim 检测图片中的中文,结果在result.txt

 

Tesseract官方文档、案例等

Tesseract documentation | Tesseract OCR (tesseract-ocr.github.io)

【视频教程】

【扫盲】Tesseract5.0编译_哔哩哔哩_bilibili