在日常的数据采集、文档归档与信息挖掘过程中,pdf格式因其版式固定、内容稳定而被广泛使用。python 开发者若希望实现 pdf 内容的自动化提取,选择一个易用且功能完善的库至关重要。本文将介绍如何用python实现 pdf文本读取、图片提取 以及 文档属性读取 三大核心操作,适用于信息抽取、电子档案处理等场景。
本文使用免费的 free spire.pdf for python,pip安装:pip install spire.pdf.free
python读取pdf文本
在pdf中提取可识别的文字内容,是信息处理的基础需求。spire.pdf 提供了 pdftextextractor 类,可逐页提取文本,并通过参数控制提取方式。
操作说明:
- 创建 pdfdocument 实例并加载pdf;
- 遍历每一页,构建 pdftextextractor;
- 设置提取选项,如是否简化布局;
- 累加获取到的文本内容。
代码示例:
from spire.pdf import pdfdocument, pdftextextractor, pdftextextractoptions # 创建 pdfdocument 实例并加载文档 pdf = pdfdocument() pdf.loadfromfile("sample.pdf") all_text = "" # 遍历所有页面 for pageindex in range(pdf.pages.count): page = pdf.pages.get_item(pageindex) # 创建文本提取器 text_extractor = pdftextextractor(page) # 设置提取选项 options = pdftextextractoptions() options.isextractalltext = true options.issimpleextraction = true # 提取文本并累加 all_text += text_extractor.extracttext(options) # 输出全部文本内容 print(all_text)
pdf文档:
读取的pdf文本:
python读取pdf图片
pdf中的图片可能包含插图、图标、水印等重要信息。spire.pdf 提供了 pdfimagehelper 工具类,可提取页面中嵌入的图像并保存为文件。
操作说明:
- 加载pdf文档并获取页面;
- 使用 pdfimagehelper.getimagesinfo() 获取图片信息;
- 遍历并保存提取的图片对象。
代码示例:
from spire.pdf import pdfdocument, pdfimagehelper # 加载pdf文件 pdf = pdfdocument() pdf.loadfromfile("sample.pdf") # 获取第一页 page = pdf.pages.get_item(0) # 创建图片助手 image_helper = pdfimagehelper() # 获取页面中的图片信息 images_info = image_helper.getimagesinfo(page) # 保存图片为本地文件 for i in range(len(images_info)): images_info[i].image.save("output/images/image" + str(i) + ".png")
读取的pdf图片:
python读取pdf文档属性
除了内容本身,pdf还可能包含元数据(如标题、作者、关键词等),便于进行文档分类与检索。spire.pdf 支持直接读取这些信息。
操作说明:
- 加载pdf文件;
- 通过 documentinformation 属性访问文档元数据;
- 打印或记录相关属性值。
代码示例:
from spire.pdf import pdfdocument # 加载pdf文件 pdf = pdfdocument() pdf.loadfromfile("sample.pdf") # 获取文档属性信息 properties = pdf.documentinformation print("标题: " + properties.title) print("作者: " + properties.author) print("主题: " + properties.subject) print("关键词: " + properties.keywords)
读取的pdf文档属性:
总结
使用 free spire.pdf for python,可以轻松完成以下三类典型的 pdf 信息提取操作:
- 读取pdf文本:逐页提取文字内容,适用于全文分析、搜索系统等;
- 读取pdf图片:提取嵌入图像用于归档、识别或后续处理;
- 读取pdf文档属性:访问标题、作者、关键词等元信息,辅助分类索引。
以上功能均可在本地环境中快速部署,适合构建轻量级 pdf 处理工具或集成至业务系统中。
到此这篇关于python实现读取pdf中的文本,图片与文档属性的文章就介绍到这了,更多相关python读取pdf内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论