Tesseract-OCR识别

发布时间 2023-07-17 11:35:08作者: 蕝戀

这玩意一般般、OCR可以试试EasyOcr、飞桨OCR、

"""

Tesseract 就是谷歌开源的一个OCR光学文字识别引擎

    默认已经有训练好的库了,但它还可以加载别人训练好的库。


使用:
1、根据平台安装引擎

    这里有一个【曼海姆大学图书馆】的封装版本
        https://github.com/UB-Mannheim/tesseract/wiki

2、python中使用:
    安装pytesseract、PIL(用于读取图片)


"""
import os
import sys

if __name__ == '__main__':

    from PIL import Image
    from pytesseract import pytesseract

    # 将安装目录加到环境变量中,自己在windwos中设置的是不起作用的
    os.environ["PATH"] = os.environ["PATH"] + r';C:\Program Files\Tesseract-OCR'

    # 打开一张图片
    image = Image.open(r"C:\Users\Administrator\Desktop\爬虫\Snipaste_2023-06-17_12-03-15.png")

    # 指定输出的语言类型
    # 使用tesseract.exe --list-langs 可以查看
    # 语言模型数据在C:\Program Files\Tesseract-OCR\tessdata
    result = pytesseract.image_to_string(image, lang="chi_sim")
    print(result)