Python快速实现从PDF中提取文本与图像坐标的终极指南_Python

spire.pdf 简介

spire.pdf for python 是一个功能强大的 pdf 处理库，允许开发者以编程方式操作 pdf 文件。它支持提取文本、图像、元数据等。当我们需要获取特定文本或图像的坐标时，这个库显得尤为便捷。

安装命令：pip install spire-pdf

坐标系设定

在 spire.pdf 中，坐标系设定非常重要：

原点 (0, 0) 位于页面的左上角。
x 轴向右延伸，y 轴向下延伸。

理解这一点有助于我们更好地定位 pdf 中的元素。

获取文本坐标

以下是使用 spire.pdf 提取 pdf 中指定文本坐标的步骤：

创建 pdfdocument 对象。
加载 pdf 文档。
获取特定页面。
创建 pdftextfinder 对象并设置查找选项。
查找文本并获取其坐标。

下面是获取文本坐标的示例代码：

from spire.pdf.common import *
from spire.pdf import *
 
# 创建 pdfdocument 对象
doc = pdfdocument()
 
# 加载 pdf 文档
doc.loadfromfile("input.pdf")
 
# 获取特定页面
page = doc.pages.get_item(0)
 
# 创建 pdftextfinder 对象
textfinder = pdftextfinder(page)
 
# 指定查找选项
findoptions = pdftextfindoptions()
findoptions.parameter = textfindparameter.wholeword
textfinder.options = findoptions
 
# 在页面中查找字符串 "隐私政策"
findresults = textfinder.find("隐私政策")
 
# 获取查找结果中第一个实例
result = findresults[0]
 
# 获取找到文本的 x/y 坐标
x = int(result.positions[0].x)
y = int(result.positions[0].y)
print("the coordinates of the first instance of the found text are:", (x, y))
 
# 释放资源
doc.dispose()

代码解析

pdfdocument 对象用于打开现有 pdf 文件。

通过 pdftextfinder 可以轻松找到指定文本，设置的查找选项允许忽略大小写并确保匹配完整单词。

最后，通过 result.positions 获取文本坐标，其中 (0, 0) 表示页面的左上角。

获取图片坐标

获取图像坐标的过程与文本提取类似，但使用 pdfimagehelper 处理图像信息。以下是示例代码：

from spire.pdf.common import *
from spire.pdf import *
 
# 创建 pdfdocument 对象
doc = pdfdocument()
 
# 加载 pdf 文档
doc.loadfromfile("input.pdf")
 
# 获取特定页面
page = doc.pages.get_item(0)
 
# 创建 pdfimagehelper 对象
imagehelper = pdfimagehelper()
 
# 获取页面中的图像信息
imageinformation = imagehelper.getimagesinfo(page)
 
# 获取指定图像的 x/y 坐标
x = int(imageinformation[0].bounds.x)
y = int(imageinformation[0].bounds.y)
print("the coordinates of the specified image are:", (x, y))
 
# 释放资源
doc.dispose()

代码解析

使用 pdfimagehelper 类来获取特定页面上的所有图像信息。

通过 imageinformation 对象获取图像的边界坐标（x, y），便于后续处理。

总结

本文介绍了如何使用 spire.pdf for python 提取 pdf 中文本及图像的坐标，并提供了相关示例代码。无论是在信息提取、数据分析，还是文档处理方面，掌握这些技术都将极大提升你的工作效率。希望这篇博客能帮助你快速上手 pdf 坐标提取的相关操作！

到此这篇关于python快速实现从pdf中提取文本与图像坐标的终极指南的文章就介绍到这了,更多相关python提取pdf文本与图像坐标内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Python实现字典的点号取值的三种常用方式

在 python 中实现字典的点号取值（dict.key 语法）可以通过自定义类实现。以下是三种常用实现方式，根据需求选择合适方案：方案1：简单属性访问（推荐）... [阅读全文]

Python使用openpyxl从URL读取Excel并获取单元格样式

摘要本文介绍了基于openpyxl库实现从url读取excel文件并提取单元格内容和样式信息的方法。主要实现了两个功能：1)获取指定sheet指定区域的单元格值... [阅读全文]

Python中字符串,列表,元组,集合及字典常见的遍历方式汇总

字符串遍历1. 直接遍历字符s = "hello"# 方式1: for循环直接遍历for char in s: print(char) # h e l ... [阅读全文]

基于Python和wxPython构建自动化Node.js项目管理工具

背景在前端或 node.js 开发过程中，开发者经常需要管理大量的项目文件夹。频繁地在各个目录间切换、手动打开终端执行 node app.js、再手动打开浏览器... [阅读全文]

基于OpenCV与Python实现的身份证号码识别案例详解

一、案例背景与价值身份证号码识别是计算机视觉在证件信息提取中的典型应用，广泛应用于身份验证、自动化录入、政务系统等场景。本案例基于python的open... [阅读全文]

Python解析Excel图表Chart的信息实战指南

摘要在数据分析与报表自动化场景中，excel 图表往往承载着关键业务信息，但常规库对图表结构与样式的解析能力有限。本文基于 openxml 规范，通过将 .xl... [阅读全文]


验证码：

验证码：

Python快速实现从PDF中提取文本与图像坐标的终极指南

2026年01月19日 • Python •我要评论

spire.pdf 简介

坐标系设定

获取文本坐标

获取图片坐标

总结

相关文章:

发表评论