PYTHON 提取PDF表格 文字 图片 格式

发布时间 2023-03-31 09:15:39作者: myrj
import pdfplumber
import pandas as pd
from PIL import Image
##加载带密码的pdf需要传入参数password,
##例如:pdfplumber.open("file.pdf", password = "test")
pdf = pdfplumber.open("daan.pdf")
#Load page_0
#读取表格
p0 = pdf.pages[0]
table = p0.extract_table()

##df = pd.DataFrame(table[1:], columns=table[0])
##print(df.infer_objects)
##for column in ["Effective", "Received"]:
##    df[column] = df[column].str.replace(" ", "")
#读取PDF文件每页内容
with pdfplumber.open("daan.pdf") as pdf:
    # 读取每一页
    for page in pdf.pages:
        page_text = page.extract_text()
        print(page_text)
#提取图片

page=pdf.pages[0]
for image in page.images:
    imgag1=image.get_image_content()