python提取图片中文字

发布时间 2023-11-30 15:46:54作者: 771293871

一.安装tesseract-ocr

1.1tesseract-ocr下载

下载地址:Index of /tesseract (uni-mannheim.de)

1.2完成tesseract-ocr安装,记住安装路径用于配置环境变量

1.3配置环境变量

将tesseract-ocr的安装路径添加到环境变量的系统变量(PATH)

增加一个TESSDATA_PREFIX变量名,变量值还是安装路径C:\Program Files\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中; 

 1.4配置文件修改

在pytesseract库下的pytesseract.py文件中找到tesseract_cmd = 'tesseract',修改成 tesseract_cmd =r'C:\Program Files\Tesseract-OCR\tesseract.exe'保存

 二.使用PIL+pytesseract进行提取

import pytesseract
from PIL import Image
#读取图片
# image = Image.open("D:/autotest/13.jpg")
# 使用 pytesseract 提取文字
text = pytesseract.image_to_string(image)
# 打印提取的文字
print(text)

  

 

三.使用cv2+pytesseract进行提取