基于Python打造一个PDF全能处理工具_Python

每天面对堆积如山的pdf文件，你是否也经历过这些崩溃瞬间：客户发来的合同需要逐页拆分重新组卷，月度报告要合并成册却总漏页，文件忘记加密差点酿成大祸，精心设计的方案被随意复制传播……这些看似简单的文档操作，正在悄悄吞噬着职场人的工作效率。

今天我们将用python构建一个pdf处理工具箱，涵盖拆分、合并、加密、水印四大核心功能。这不是晦涩的学术教程，而是手把手带你实现从工具使用到原理剖析的完整链路，让pdf处理像拼乐高一样简单有趣。

一、pdf文件解构：理解页面对象模型

在动手之前，我们需要先理解pdf的内部结构。每个pdf文件都像一本装订好的书，由多个页面对象（page object）组成，这些页面包含文本、图片、表单等元素。当我们用pypdf2库操作时，实际上是在对这些页面对象进行增删改查。

安装核心依赖库：

pip install pypdf2 reportlab python-docx

二、精准拆分：把pdf变成乐高积木

1. 按页码范围拆分

from pypdf2 import pdfreader, pdfwriter
 
def split_pdf(input_path, output_prefix, page_ranges):
    reader = pdfreader(input_path)
    writer = pdfwriter()
    
    for idx, page_num in enumerate(page_ranges, 1):
        writer.add_page(reader.pages[page_num])
        output_path = f"{output_prefix}_part{idx}.pdf"
        with open(output_path, "wb") as output_pdf:
            writer.write(output_pdf)
        writer = pdfwriter()  # 重置writer
 
# 使用示例：拆分第3-5页和第8页
split_pdf("report.pdf", "split_result", [2,3,4,7])

2. 按文件大小智能拆分

def split_by_size(input_path, max_size_mb=5):
    reader = pdfreader(input_path)
    max_size = max_size_mb * 1024 * 1024  # 转换为字节
    writer = pdfwriter()
    part_count = 1
    
    for page in reader.pages:
        writer.add_page(page)
        # 估算当前文件大小（实际需要写入临时文件检测）
        if get_pdf_size(writer) > max_size:
            save_part(writer, part_count)
            writer = pdfwriter()
            part_count += 1
    
    if writer.pages:
        save_part(writer, part_count)

三、智能合并：构建文档组装流水线

1. 基础合并功能

def merge_pdfs(output_path, input_paths):
    writer = pdfwriter()
    
    for path in input_paths:
        reader = pdfreader(path)
        for page in reader.pages:
            writer.add_page(page)
    
    with open(output_path, "wb") as output_pdf:
        writer.write(output_pdf)

2. 高级合并技巧

书签继承：保留原始文件的书签结构
目录生成：自动创建合并后的文档目录
样式统一：处理不同pdf的页边距差异

四、安全防护：给文档穿上防弹衣

1. 基础加密

def encrypt_pdf(input_path, output_path, password):
    reader = pdfreader(input_path)
    writer = pdfwriter()
    
    for page in reader.pages:
        writer.add_page(page)
    
    writer.encrypt(user_password=password, use_128bit=true)
    
    with open(output_path, "wb") as output_pdf:
        writer.write(output_pdf)

2. 权限控制

# 在encrypt方法中添加权限参数
writer.encrypt(
    user_password=password,
    owner_password=owner_pwd,
    use_128bit=true,
    permissions={
        "print": false,
        "modify": false,
        "copy": false
    }
)

五、品牌植入：打造专业水印系统

1. 文字水印

from reportlab.pdfbase.ttfonts import ttfont
from reportlab.pdfbase import pdfmetrics
from reportlab.lib.pagesizes import a4
from reportlab.pdfgen import canvas
 
def create_watermark(text, output_path):
    pdfmetrics.registerfont(ttfont("simhei", "simhei.ttf"))  # 注册中文字体
    c = canvas.canvas(output_path, pagesize=a4)
    c.setfont("simhei", 40)
    c.setfillalpha(0.5)  # 设置透明度
    
    # 计算水印位置
    text_width = c.stringwidth(text, "simhei", 40)
    x = (a4[0] - text_width) / 2
    y = a4[1] / 2
    
    c.rotate(45)  # 旋转45度
    c.drawstring(x, y, text)
    c.save()

2. 图片水印

def add_image_watermark(input_path, watermark_path, output_path):
    reader = pdfreader(input_path)
    writer = pdfwriter()
    watermark = pdfreader(watermark_path).pages[0]
    
    for page in reader.pages:
        # 合并水印层和内容层
        page.merge_page(watermark)
        writer.add_page(page)
    
    with open(output_path, "wb") as output_pdf:
        writer.write(output_pdf)

六、实战案例：构建自动化工作流

def process_contract(input_path):
    # 1. 拆分签名页
    split_pdf(input_path, "temp_split", [len(reader.pages)-1])
    
    # 2. 添加动态水印
    create_watermark("文件", "watermark.pdf")
    add_image_watermark("temp_split_part1.pdf", "watermark.pdf", "watermarked.pdf")
    
    # 3. 加密保护
    encrypt_pdf("watermarked.pdf", "final_contract.pdf", "secure@123")
    
    # 4. 邮件附件准备
    convert_to_zip(["final_contract.pdf"], "secure_package.zip")