Python使用PyMuPDF实现PDF文件的智能注释_Python

引言

在数字化办公的浪潮中，处理和分析大量文档成为了我们日常工作的一部分。尤其是面对pdf文件，手动检索和标注信息不仅耗时耗力，还难免疏漏。为了提升效率并减少人为失误，我精心打造了这款python脚本，它能够智能化地在pdf文档中定位并标注excel表格所指定的关键文本。本文将深入探讨这一脚本的内在逻辑，并指导你如何轻松驾驭这一自动化工具。

程序的核心功能在于，它能够识别excel文件中b列的特定文本，一旦这些文本在pdf文档中被找到，脚本便会自动在这些文本周围绘制矩形框，并在相邻位置以注释的形式展示同一行a列的内容。这一过程不仅提高了pdf文档处理的速度，同时也确保了信息标注的准确性和一致性。接下来，我将逐步展开，详细解释这一自动化流程的每个关键步骤。

值得注意的是，随着pymupdf库的不断更新迭代，pymupdf库的语法已经产生不小的变化和以及新功能的加入，使得现有网络上的许多教程和文档的语法已经在某些情况下不再适用于最新版本使用需求。基于这一现状，笔者投入了不少时间和精力进行研究和实践，以确保本脚本使用的是最新的、正确的语法和方法。

在这篇文章中，你将看到：

最新版本的pymupdf的正确使用方式。
如何利用pymupdf的强大功能来实现复杂的pdf处理任务。
实用技巧和最佳实践，帮助你避免常见的陷阱和错误。

我希望通过分享这些经过验证的知识和经验，能够帮助你在自动化pdf和excel文件处理的道路上少走弯路，直接掌握最前沿的技术。无论你是编程新手还是资深开发者，这篇文章都将为你提供宝贵的信息和指导。让我们一起探索自动化魔法的奥秘，释放你的工作效率吧！

环境准备

在开始之前，请确保你的python环境中安装了以下库：

pymupdf：用于读取、修改pdf文件。
openpyxl：用于读取excel文件。
tkinter：用于创建图形用户界面（gui）。

要安装这三个库，你可以使用python的包管理器pip。以下是安装命令：

对于pymupdf：

pip install pymupdf

对于openpyxl：

pip install openpyxl

对于tkinter（通常python的安装已经包含了tkinter，但如果没有，你可以使用以下命令安装）：

pip install tk

请注意，如果你使用的是python 3.x版本，通常pip命令已经内置在python中，你可以直接使用它来安装这些库。如果你使用的是python 2.x版本，可能需要使用pip2或pip3来指定正确的python版本。

脚本功能概述

本脚本具有以下核心功能：

通过gui让用户选择pdf和excel文件。
读取excel文件中b列数据以获取指定的文本，并在pdf中搜索这些文本。
在pdf中找到的文本位置添加矩形框和文本注释。
保存修改后的pdf文件，并提供选项让用户选择保存路径。
脚本运行结束后，提示用户按特定键退出程序。

脚本详解

1. 图形用户界面（gui）

使用tkinter库创建一个简洁的gui，让用户能够方便地选择需要处理的文件。

# 创建tk窗口对象并立即销毁，用于文件对话框
root = tk()
root.withdraw()

# 使用tkinter.filedialog获取pdf文件路径
input_file_pdf = filedialog.askopenfilename(
    title="请选择pdf文件",  # 对话框标题
    filetypes=(("pdf files", "*.pdf"), ("all files", "*.*"))  # 文件类型过滤
)

# 如果用户取消了文件选择，就退出程序
if not input_file_pdf:
    print("未选择文件，程序将退出。")
    exit()

2. 打开和读取文件

使用pymupdf打开用户选择的pdf文件，使用openpyxl读取excel文件，并获取活动工作表。

# 打开pdf文件
print("正在打开pdf文件，请稍候...")
doc = fitz.open(input_file_pdf)  # 使用pymupdf打开pdf文件
print("已打开pdf文件，请稍候...")

# 使用tkinter.filedialog获取excel文件路径
input_file_excel = filedialog.askopenfilename(
    title="请选择excel文件",  # 对话框标题
    filetypes=(("excel files", "*.xlsx"), ("all files", "*.*"))  # 文件类型过滤
)

# 如果用户取消了文件选择，就退出程序
if not input_file_excel:
    print("未选择文件，程序将退出。")
    exit()

3. 搜索和注释

遍历excel工作表的每一行，使用pymupdf的搜索功能在pdf中查找指定文本，并在找到的位置添加矩形框和文本注释。

# 遍历excel的每一行，从第二行开始读取
for row in ws.iter_rows(min_row=1, values_only=true):
    text = str(row[0])  # 获取a列的值
    text_to_search = row[1]  # 获取b列的值

    print(f"正在处理excel中的文本：'{text}' 和 '{text_to_search}'")

    # 用于跟踪是否在当前循环中找到文本的变量
    page_text_found = false

    # 遍历pdf的每一页
    for page_number in range(len(doc)):
        page = doc[page_number]  # 访问当前页
        areas = page.search_for(text_to_search)  # 在当前页搜索文本

        # 如果在页面上找到文本，添加扩大的矩形框和文本注释
        if areas:
            page_text_found = true

            for area in areas:
                x0, y0, x1, y1 = area
                print(f"在第 {page_number + 1} 页找到文本 '{text_to_search}'")

                # 扩大矩形框
                new_x0 = 27.7  # 根据需要调整
                new_y0 = y0 - down_size
                new_x1 = 524.6  # 根据需要调整
                new_y1 = y1 + up_size

                # 创建扩大后的矩形区域
                rect = fitz.rect(new_x0, new_y0, new_x1, new_y1)
                # 添加矩形注释
                annot = page.add_rect_annot(rect)
                annot.set_border(width=2)
                annot.update(opacity=1)

                # 添加文本注释
                new_rect = fitz.rect(5, new_y0 + 3, 10 + 50, new_y0 + 15)
                annot = page.add_freetext_annot(new_rect, text, fontsize=12, text_color=(1, 0, 0))

            # 由于找到文本后已添加注释，可以跳出内层循环
            break

    # 如果在当前excel行的搜索中没有找到文本，则告知用户
    if not page_text_found:
        print(f"在整个pdf中没有找到文本 '{text_to_search}'。")

4. 保存和退出

用户选择保存路径后，脚本将保存修改后的pdf文件，并在所有操作完成后提示用户按特定键退出程序。

# 使用tkinter.filedialog获取保存pdf的文件路径
output_file_pdf = filedialog.asksaveasfilename(
    title="请输入要保存的pdf文件路径",
    filetypes=(("pdf files", "*.pdf"), ("all files", "*.*")),
    defaultextension=".pdf"  # 设置默认扩展名为pdf
)

# 如果用户取消了保存文件选择，就退出程序
if not output_file_pdf:
    print("未选择保存路径，程序将退出。")
    exit()

print("正在保存修改后的pdf文件，请稍候...")
doc.save(output_file_pdf)  # 保存修改后的pdf文件
print("修改后的pdf文件已保存。")

# 关闭文档
doc.close()  # 关闭pymupdf文档
print("搜索完成，pdf文件已关闭。")

代码示例文件与截图

excel文件原内容

pdf文件原内容

程序运行后pdf文件内容

代码运行截图

完整代码

# 导入pymupdf库，用于处理pdf文件
import fitz
# 导入openpyxl库中的load_workbook函数，用于处理excel文件
from openpyxl import load_workbook
# 导入tk和filedialog，用于创建图形用户界面对话框
from tkinter import tk, filedialog

# 创建tk窗口对象并立即销毁，用于文件对话框
root = tk()
root.withdraw()

# 使用tkinter.filedialog获取pdf文件路径
input_file_pdf = filedialog.askopenfilename(
    title="请选择pdf文件",  # 对话框标题
    filetypes=(("pdf files", "*.pdf"), ("all files", "*.*"))  # 文件类型过滤
)

# 如果用户取消了文件选择，就退出程序
if not input_file_pdf:
    print("未选择文件，程序将退出。")
    exit()

# 打开pdf文件
print("正在打开pdf文件，请稍候...")
doc = fitz.open(input_file_pdf)  # 使用pymupdf打开pdf文件
print("已打开pdf文件，请稍候...")

# 使用tkinter.filedialog获取excel文件路径
input_file_excel = filedialog.askopenfilename(
    title="请选择excel文件",  # 对话框标题
    filetypes=(("excel files", "*.xlsx"), ("all files", "*.*"))  # 文件类型过滤
)

# 如果用户取消了文件选择，就退出程序
if not input_file_excel:
    print("未选择文件，程序将退出。")
    exit()

# 打开excel文件
print("正在打开excel文件，请稍候...")
wb = load_workbook(filename=input_file_excel)  # 加载excel文件
ws = wb.active  # 获取活动工作表

# 矩形扩大的尺寸
up_size = 5  # 上边扩大的尺寸
down_size = 3  # 下边扩大的尺寸
left_size = 77.5  # 左边扩大的尺寸
right_size = 389.5  # 右边扩大的尺寸

# 遍历excel的每一行，从第二行开始读取
for row in ws.iter_rows(min_row=1, values_only=true):
    text = str(row[0])  # 获取a列的值
    text_to_search = row[1]  # 获取b列的值

    print(f"正在处理excel中的文本：'{text}' 和 '{text_to_search}'")

    # 用于跟踪是否在当前循环中找到文本的变量
    page_text_found = false

    # 遍历pdf的每一页
    for page_number in range(len(doc)):
        page = doc[page_number]  # 访问当前页
        areas = page.search_for(text_to_search)  # 在当前页搜索文本

        # 如果在页面上找到文本，添加扩大的矩形框和文本注释
        if areas:
            page_text_found = true

            for area in areas:
                x0, y0, x1, y1 = area
                print(f"在第 {page_number + 1} 页找到文本 '{text_to_search}'")

                # 扩大矩形框
                new_x0 = 27.7  # 根据需要调整
                new_y0 = y0 - down_size
                new_x1 = 524.6  # 根据需要调整
                new_y1 = y1 + up_size

                # 创建扩大后的矩形区域
                rect = fitz.rect(new_x0, new_y0, new_x1, new_y1)
                # 添加矩形注释
                annot = page.add_rect_annot(rect)
                annot.set_border(width=2)
                annot.update(opacity=1)

                # 添加文本注释
                new_rect = fitz.rect(5, new_y0 + 3, 10 + 50, new_y0 + 15)
                annot = page.add_freetext_annot(new_rect, text, fontsize=12, text_color=(1, 0, 0))

            # 由于找到文本后已添加注释，可以跳出内层循环
            break

    # 如果在当前excel行的搜索中没有找到文本，则告知用户
    if not page_text_found:
        print(f"在整个pdf中没有找到文本 '{text_to_search}'。")

# 使用tkinter.filedialog获取保存pdf的文件路径
output_file_pdf = filedialog.asksaveasfilename(
    title="请输入要保存的pdf文件路径",
    filetypes=(("pdf files", "*.pdf"), ("all files", "*.*")),
    defaultextension=".pdf"  # 设置默认扩展名为pdf
)

# 如果用户取消了保存文件选择，就退出程序
if not output_file_pdf:
    print("未选择保存路径，程序将退出。")
    exit()

print("正在保存修改后的pdf文件，请稍候...")
doc.save(output_file_pdf)  # 保存修改后的pdf文件
print("修改后的pdf文件已保存。")

# 关闭文档
doc.close()  # 关闭pymupdf文档
print("搜索完成，pdf文件已关闭。")

# 提示用户按下q键退出程序，并检查输入
print("程序运行结束，按 'q' 键退出程序（不区分大小写）。")
while true:  # 创建一个无限循环
    key = input().strip().lower()  # 获取用户输入并转换为小写
    if key == 'q':  # 检查输入是否是 'q'
        break  # 如果是 'q'，退出循环
    else:
        print("请输入 'q' 以退出程序。")