Python中操作PDF文件的常用方法_Python

1. 安装所需库

首先，需要安装必要的库。你可以使用以下命令来安装这些库：

pip install pypdf2
pip install pdfminer.six
pip install reportlab

2. 使用 pypdf2 操作 pdf 文件

pypdf2 是一个非常流行的库，支持对 pdf 文件进行合并、拆分、加密、解密、旋转等操作。

2.1 合并多个 pdf 文件

import pypdf2
 
# 创建一个 pdf 合并器对象
pdf_merger = pypdf2.pdfmerger()
 
# 需要合并的 pdf 文件列表
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
 
# 合并 pdf 文件
for pdf in pdf_files:
    pdf_merger.append(pdf)
 
# 输出合并后的 pdf 文件
pdf_merger.write('merged_output.pdf')
pdf_merger.close()
 
print("pdf 文件合并完成！")

2.2 拆分 pdf 文件

import pypdf2
 
# 打开 pdf 文件
with open('sample.pdf', 'rb') as file:
    reader = pypdf2.pdfreader(file)
 
    # 获取 pdf 文件的页数
    total_pages = len(reader.pages)
 
    # 创建一个 pdf 写入器对象
    writer = pypdf2.pdfwriter()
 
    # 拆分为每一页一个 pdf 文件
    for page_num in range(total_pages):
        writer.add_page(reader.pages[page_num])
 
        # 写入到新的 pdf 文件
        with open(f'page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)
 
    print("pdf 文件拆分完成！")

2.3 提取 pdf 文件的文本

import pypdf2
 
# 打开 pdf 文件
with open('sample.pdf', 'rb') as file:
    reader = pypdf2.pdfreader(file)
    text = ""
    
    # 提取所有页的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text += page.extract_text()
 
print("pdf 文件内容：")
print(text)

3. 使用 pdfminer 提取 pdf 文本

pdfminer.six 是一个专注于从 pdf 中提取文本的库，比 pypdf2 更适合复杂的文本提取操作。它支持从 pdf 中提取文本和元数据。

3.1 提取 pdf 文件中的文本

from pdfminer.high_level import extract_text
 
# 提取 pdf 文件中的文本
text = extract_text('sample.pdf')
 
print("提取的文本内容：")
print(text)

4. 使用 reportlab 创建 pdf 文件

reportlab 是一个非常强大的库，主要用于生成 pdf 文件。它提供了丰富的 api 来设计和生成 pdf。

4.1 创建一个简单的 pdf 文件

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
 
# 创建一个 pdf 文件并绘制文本
def create_pdf(output_filename):
    c = canvas.canvas(output_filename, pagesize=letter)
    c.drawstring(100, 750, "hello, this is a simple pdf created with reportlab!")
    c.save()
 
# 调用函数生成 pdf 文件
create_pdf("output.pdf")
print("pdf 文件创建完成！")

4.2 在 pdf 中添加图像

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
 
def create_pdf_with_image(output_filename):
    c = canvas.canvas(output_filename, pagesize=letter)
    c.drawstring(100, 750, "here is an image below:")
    
    # 添加图像
    c.drawimage("image.jpg", 100, 500, width=200, height=150)  # 图像位置和大小
    
    c.save()
 
create_pdf_with_image("pdf_with_image.pdf")
print("pdf 文件（带图像）创建完成！")

5. 使用 pymupdf (fitz) 提取文本

pymupdf 是一个处理 pdf、xps、epub 等文件格式的库，功能非常强大且效率较高。你可以使用它来提取文本、图像和其他内容。

5.1 提取 pdf 文件的文本

import fitz  # pymupdf
 
# 打开 pdf 文件
doc = fitz.open('sample.pdf')
 
# 提取所有页面的文本
text = ""
for page_num in range(len(doc)):
    page = doc.load_page(page_num)
    text += page.get_text()
 
print("pdf 文件的内容：")
print(text)

6. 对 pdf 文件进行加密和解密

6.1 使用 pypdf2 对 pdf 进行加密

import pypdf2
 
# 打开 pdf 文件
with open('sample.pdf', 'rb') as file:
    reader = pypdf2.pdfreader(file)
    writer = pypdf2.pdfwriter()
    
    # 将 pdf 中的所有页面添加到 writer 对象中
    for page in reader.pages:
        writer.add_page(page)
    
    # 设置密码
    password = "your_password"
    writer.encrypt(password)
    
    # 写入加密后的文件
    with open('encrypted_sample.pdf', 'wb') as encrypted_file:
        writer.write(encrypted_file)
 
print("pdf 文件加密完成！")

6.2 使用 pypdf2 对 pdf 进行解密

import pypdf2
 
# 打开加密的 pdf 文件
with open('encrypted_sample.pdf', 'rb') as file:
    reader = pypdf2.pdfreader(file)
    
    # 解密 pdf 文件
    password = "your_password"
    if reader.is_encrypted:
        reader.decrypt(password)
    
    # 创建一个 pdf 写入器对象
    writer = pypdf2.pdfwriter()
    
    # 将解密后的页面添加到写入器中
    for page in reader.pages:
        writer.add_page(page)
    
    # 输出解密后的 pdf 文件
    with open('decrypted_sample.pdf', 'wb') as decrypted_file:
        writer.write(decrypted_file)
 
print("pdf 文件解密完成！")