Python通过PyMuPDF高效处理PDF文档的操作方法_Python

一、pymupdf 核心功能

文本提取

提取精确文本（保留布局信息）
支持按页面、区块、单词或行提取
处理加密文档（需提供密码）

文档渲染

将页面转为图像（png/jpeg）
高分辨率输出（支持缩放和旋转）

文档操作

合并/拆分 pdf
旋转、删除、插入页面
添加文本、图像、形状（矩形/圆形等）

高级特性

提取元数据、书签、链接、注释
搜索文本（支持正则表达式）
处理 pdf 表单（读取/填写字段）

安装方法

pip install pymupdf

二、关键代码示例

1. 打开文档 & 提取文本

import fitz  # pymupdf 的导入名称

# 打开 pdf
doc = fitz.open("document.pdf")

# 提取第一页文本
page = doc.load_page(0)
text = page.get_text()
print(text)

# 按区块提取（保留位置信息）
blocks = page.get_text("blocks")
for block in blocks:
    print(block[4])  # 文本内容（block格式: (x0, y0, x1, y1, text)）

2. 渲染页面为图像

# 渲染为 png
pix = page.get_pixmap(matrix=fitz.matrix(2, 2))  # 缩放2倍
pix.save("page0.png")

# 指定 dpi (300 dpi)
dpi = 300
mat = fitz.matrix(dpi / 72, dpi / 72)  # 72是默认dpi
pix = page.get_pixmap(matrix=mat)

3. 编辑 pdf

# 添加文本到新页面
new_page = doc.new_page(width=400, height=200)
new_page.insert_text((100, 50), "hello pymupdf!", fontsize=24)

# 绘制红色矩形
rect = fitz.rect(50, 70, 150, 120)
new_page.draw_rect(rect, color=(1, 0, 0), width=2)

# 保存修改
doc.save("modified.pdf")

4. 合并 pdf

doc1 = fitz.open("doc1.pdf")
doc2 = fitz.open("doc2.pdf")

# 将 doc2 插入到 doc1 末尾
doc1.insert_pdf(doc2)
doc1.save("merged.pdf")

5. 提取图像

for img_index, img in enumerate(page.get_images(full=true)):
    xref = img[0]  # 图像引用 id
    base_image = doc.extract_image(xref)
    image_bytes = base_image["image"]
    with open(f"image_{img_index}.png", "wb") as f:
        f.write(image_bytes)

6. 搜索文本

# 搜索所有 "important" 出现的位置
areas = page.search_for("important")
for rect in areas:
    page.add_highlight_annot(rect)  # 添加高亮注释

三、相关说明

1. 性能优势

速度极快：比 pypdf2/pdfplumber 快 5-10 倍
内存效率：流式处理大文件（>1gb）
精确布局：保留文本位置、字体、图像坐标

2. 适用场景

批量提取 pdf 文本/图像
自动化生成报告（添加水印/页眉页脚）
构建文档搜索引擎
转换 pdf 为图像/文本文件
处理扫描文档（ocr 前预处理）

3. 注意事项

安装依赖：无需额外依赖（windows/macos/linux 均有预编译包）
加密文档：使用 doc.authenticate(password) 处理密码
坐标系：原点在左上角（与传统 pdf 坐标一致）
商业许可：agpl 协议（商业应用需购买许可证）

以上就是python通过pymupdf高效处理pdf文档的操作方法的详细内容，更多关于python pymupdf处理pdf文档的资料请关注代码网其它相关文章！

Python异步多进程调度系统的完整实现与实战指南

1. 引言：python多进程编程的价值在当今数据密集型的应用场景中，高效处理并行任务是提升程序性能的关键。python的全局解释器锁（gil）限制了线程的并行... [阅读全文]

一文系统梳理Python类的特殊方法体系

在python中，特殊方法（又称魔术方法或双下方法）是定义类行为的强大工具。这些以双下划线__包裹的方法，能让类像内置类型一样支持运算符、迭代、上下文管理等操作... [阅读全文]

为Python Anaconda设置清华源的详细步骤

为 anaconda 设置清华源可以极大地提升软件包下载和更新的速度。以下是详细的步骤，分为两个主要部分：为 conda 本身设置频道镜像和为 pip 设置索引... [阅读全文]

基于Python实现一键群发邮件并自动收发附件功能

引入：邮件操作重复又耗时？你的沟通效率正在“掉链子”！邮件操作重复又耗时？你的沟通效率正在“掉链子”！在职场中，邮件是主要的沟通工具…

2025年11月17日 • 前端脚本

Python Selenium打开指定路径浏览器的几种实现方法

在python selenium中打开指定路径的谷歌浏览器和驱动，有几种方法可以实现：方法1：使用 executable_path 参数（传统方式）from s... [阅读全文]

Python转义字符与原字符的实现示例

一、前言你是否遇到过这些问题？写文件路径时写成"c:\new\test.txt"，结果程序报错？正则表达式里写"\d+"... [阅读全文]


验证码：

验证码：

Python通过PyMuPDF高效处理PDF文档的操作方法

2025年11月18日 • Python •我要评论