Python进行PDF文件拆分的示例详解_Python

在日常生活中，我们常常会遇到大型的pdf文件，这些文件可能难以发送、管理和查阅。将pdf拆分成多个小文件是一个实用的解决方案，可以为我们带来多重好处。首先，拆分pdf可以提高文件的可读性，使用户更容易找到所需信息。此外，拆分后的文件更便于分享和协作，特别适用于团队项目，让不同成员能够同时处理各自负责的部分。同时，这种方法还能有效保护隐私，允许将敏感信息单独处理，从而降低数据泄露的风险。

这篇博客将探讨如何使用python实现pdf文件拆分，主要涵盖以下几个方面的内容：

将pdf按页数拆分
- 将pdf的每一页拆分为单独的文件
- 将pdf按指定页数拆分
将pdf按页码范围拆分
将pdf按指定内容拆分
将pdf的一页拆分为多页

使用工具

要在python中实现拆分pdf文件，可以使用spire.pdf for python库。该库主要用于在python应用程序中生成和处理pdf文档，也支持将pdf转换为其他格式，例如图片，word和excel等。

安装 spire.pdf

在开始之前，需要先安装 spire.pdf 库。你可以在终端中运行以下命令进行安装：

pip install spire.pdf

将pdf按页数拆分

在按页数拆分pdf文件时，你可以将pdf文档的每一页拆分为一个单独的文件，也可以将pdf文档按指定页数拆分。下面将对这两种方式逐一进行介绍。

将pdf的每一页拆分为单独的文件

spire.pdf for python提供了pdfdocument.split()方法，支持将pdf文档按页拆分，生成的每个文件仅包含原始文档中的一页。具体实现步骤如下：

创建pdfdocument对象。
使用pdfdocument.loadfromfile()方法打开pdf文档。
使用pdfdocument.split()方法将pdf文档的每一页拆分为单独的pdf文档。

实现代码：

from spire.pdf.common import *
from spire.pdf import *
 
# 创建pdfdocument对象
pdf = pdfdocument()
# 加载pdf文件
pdf.loadfromfile("心理健康.pdf")
 
# 将pdf文件拆分为多个pdf文件，每个文件仅包含原始pdf中的一页
pdf.split("拆分pdf/第{0}页.pdf", 1)
 
# 关闭pdfdocument对象
pdf.close()

将pdf按指定页数拆分

将 pdf 文件按指定页数拆分的方法是通过创建新的 pdf 文档并将指定数量的页面插入其中来实现。具体实现步骤如下：

创建pdfdocument对象。

使用pdfdocument.loadfromfile()方法打开pdf文档。

获取pdf文档的总页数。

使用循环按指定页数拆分pdf：

设置起始页和结束页。
创建新的pdfdocument对象。
使用pdfdocument.insertpagerange()方法将当前页码范围内的页面插入到新pdf文档中。
使用pdfdocument.savetofile()方法保存生成的pdf文档。

实现代码：

from spire.pdf.common import *
from spire.pdf import *
 
# 将pdf按指定页数拆分的方法
def split_pdf_by_page_count(input_file, page_count):
    # 创建pdfdocument对象
    pdf = pdfdocument()
    # 加载pdf文件
    pdf.loadfromfile(input_file)
 
    # 计算总页数
    total_pages = pdf.pages.count
 
    # 按指定页数拆分pdf
    for i in range(0, total_pages, page_count):
        # 创建新的pdfdocument对象
        new_pdf = pdfdocument()
        
        # 计算当前要插入的页码范围
        start_page = i
        end_page = min(i + page_count - 1, total_pages - 1)  # 确保不超过总页数
        
        # 将当前页码范围的页面插入到新pdf中
        new_pdf.insertpagerange(pdf, start_page, end_page)
 
        # 保存生成的文件
        new_pdf.savetofile("拆分pdf/" + f"{start_page + 1}-{end_page + 1}页.pdf")
        # 关闭新创建的pdfdocument对象
        new_pdf.close()
 
    # 关闭原始pdfdocument对象
    pdf.close()
 
# 调用split_pdf_by_page_count方法将pdf文件按照每3页拆分
split_pdf_by_page_count("心理健康.pdf", 3)

根据页码范围拆分pdf

除了按页数拆分 pdf 文件外，你还可以选择将指定页码范围内的页面提取为单独的文件。该方法的实现步骤与按指定页数拆分类似，此处不再赘述。

实现代码：

from spire.pdf.common import *
from spire.pdf import *
 
# 提取pdf中指定页码范围内的页面并保存为新文件的方法
def split_pdf_by_page_range(input_file, start_page, end_page, output_file):
    # 创建pdfdocument对象并加载pdf文件
    pdf = pdfdocument()
    pdf.loadfromfile(input_file)
 
    # 创建新的pdfdocument对象
    new_pdf = pdfdocument()
 
    # 将指定页码范围内的页面插入到新pdf文档中
    new_pdf.insertpagerange(pdf, start_page, end_page)
 
    # 保存生成的文件
    new_pdf.savetofile(output_file)
 
    # 关闭pdfdocument对象
    pdf.close()
    new_pdf.close()
 
# 调用split_pdf_by_page_range方法，从pdf文件中提取第1-3页并保存为新文件
split_pdf_by_page_range("心理健康.pdf", 0, 2, "拆分pdf/指定页码范围.pdf")

根据指定内容拆分pdf

在某些情况下，你可能需要根据特定关键字或短语拆分 pdf。这种方法可以提取包含特定内容的页面，便于整理相关信息。以下代码会查找 pdf 每一页上的文本，如果找到指定关键字，则将该页面添加到新 pdf 中：

from spire.pdf.common import *
from spire.pdf import *
 
# 提取包含特定关键字的页面到新pdf中的方法 
def extract_pages_with_keyword(pdf_path, output_path, keyword):
    # 创建pdfdocument对象
    pdf = pdfdocument()
    # 加载pdf文件
    pdf.loadfromfile(pdf_path)
 
    # 创建一个新的pdfdocument对象
    new_pdf = pdfdocument()
 
    # 遍历文档中的每一页
    for i in range(pdf.pages.count):
        page = pdf.pages[i]
        # 创建pdftextfinder实例
        finder = pdftextfinder(page)
        # 定义文本查找参数
        finder.options.parameter = textfindparameter.wholeword
        # 查找特定文本
        results = finder.find(keyword)
 
        # 如果找到了关键字
        if results:
            # 将当前页面添加到新文档中
            new_pdf.insertpage(pdf, i)
            
    # 保存提取的结果文件
    new_pdf.savetofile(output_path)
 
    # 关闭pdfdocument对象
    new_pdf.close()
    pdf.close()
 
# 调用extract_pages_with_keyword方法将pdf文件中包含特定关键字的页面保存为新文件
extract_pages_with_keyword("心理健康.pdf", "拆分pdf/含关键字页面.pdf", "问题")

将pdf的一页拆分为多页

在某些情况下，你可能需要将 pdf 文档的某一页拆分为两页或多页。在拆分时，你可以选择将该页面横向或竖向拆分。横向拆分时，拆分后的文档的每个页面的宽度等于原始宽度的1/拆分总页数；竖向拆分时，拆分后的文档的每个页面的高度等于原始高度的1/拆分总页数。

以下代码展示了如何将pdf文档的指定页面竖向或横向拆分为两页：

from spire.pdf.common import *
from spire.pdf import *
 
# 将指定pdf页面横向或竖向拆分为多页的方法
def split_specific_pdf_page(pdf_path, output_folder, page_index, num_pages, split_direction='vertical'):
    # 创建pdfdocument对象
    pdf = pdfdocument()
    # 加载pdf文件
    pdf.loadfromfile(pdf_path)
 
    # 获取指定页面
    if page_index < 0 or page_index >= pdf.pages.count:
        print("错误：指定的页面索引超出范围。")
        return
    
    page = pdf.pages[page_index]
 
    # 创建一个新的pdfdocument对象
    newpdf = pdfdocument()
    # 移除所有页面边距
    newpdf.pagesettings.margins.all = 0.0
 
    if split_direction == 'vertical':
        newpdf.pagesettings.width = page.size.width
        newpdf.pagesettings.height = page.size.height / float(num_pages)
    elif split_direction == 'horizontal':
        newpdf.pagesettings.height = page.size.height
        newpdf.pagesettings.width = page.size.width / float(num_pages)
    else:
        print("错误：无效的拆分方向，请选择'vertical'或'horizontal'。")
        return
    
    # 向新pdf添加一页
    newpage = newpdf.pages.add()
 
    # 设置布局格式为自动分页
    format = pdftextlayout()
    format.break = pdflayoutbreaktype.fitpage
    format.layout = pdflayouttype.paginate
 
    # 绘制内容
    if split_direction == 'vertical':
        page.createtemplate().draw(newpage, pointf(0.0, 0.0), format)
    elif split_direction == 'horizontal':
        page.createtemplate().draw(newpage, pointf(0.0, 0.0), format)
 
    # 保存生成的文件
    newpdf.savetofile(f"{output_folder}/拆分第{page_index + 1}页.pdf")
 
    # 关闭pdfdocument对象
    newpdf.close()
    pdf.close()
 
# 调用split_specific_pdf_page方法将pdf文件第1页竖向拆分为2页，0为当前页面的索引，2为拆分总页数
# split_specific_pdf_page("心理健康.pdf", "拆分pdf", 0, 2, 'vertical')  
# 或者将pdf文件第1页横向拆分为2页
split_specific_pdf_page("心理健康.pdf", "拆分pdf", 0, 2, 'horizontal')

到此这篇关于python进行pdf文件拆分的示例详解的文章就介绍到这了,更多相关python pdf拆分内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！