C#实现从Word文档中提取指定页面的方法详解_Asp.net

在日常开发中，我们经常会遇到这样的需求：

只需要 word 文档中的某一页或几页连续页面，而不需要整份文档；
需要拆分长文档，将每一页保存为独立文件，便于归档、批量处理或后续转换；
从文档中提取不连续的关键页面，如封面、摘要页和签字页，用于审批或数据分析。

如果手动操作，这些任务既耗时又容易出错；通过编程实现 word 页面提取，不仅可以大幅提升效率，还能保证处理的准确性和可控性。

本文将结合实际业务场景，介绍如何使用 c# 提取 word 文档中的指定页面，并提供详细示例代码。

为什么要提取 word 文档页面

提取 word 指定页面的内容的应用场景非常广泛，包括：

导出合同或报告特定页面：例如，只需合同的签字页或盖章页，无需传输整份文档，便于单独归档或发送给客户。
文档归档与共享：在文档管理系统中，将长文档拆分成小块，可以更灵活地进行存储、备份或共享。
筛选关键页面：某些业务场景只关注文档中的部分页，如发票核对、审批流程或法律文件审核。
批量处理与自动化：将文档按页拆分为单页文件，便于后续转换（如 pdf）、二次处理或自动化审批。

相比将 word 当作整体文件操作，提取页面让文档处理更精细、灵活和可控。

环境准备与库安装

要在 c# 中实现 word 页面提取，需要借助第三方库提供的 api。本文示例使用 spire.doc for .net，它提供了完整的 word 文档加载、编辑和保存功能，同时无需在本机安装 microsoft word。

安装 spire.doc

方法一：visual studio nuget 包管理器

右键项目 → nuget 包管理器
搜索 spire.doc → 安装

方法二：程序包管理器控制台

install-package spire.doc

方法三：.net cli

dotnet add package spire.doc

安装完成后，在代码中引入命名空间：

using spire.doc;

示例一、使用 c# 提取 word 文档指定页

当只需要文档中的指定页面或者一个范围内的页面内容时，可以使用 document.extractpages(startindex, count) 方法将这些页面轻松提取到一个新的文档。在该方法的参数中：

startindex：代表起始页索引（从 0 开始）。
count：代表要提取的页面数量。

示例代码

以下代码示例展示了如何使用 c# 从一个word文档中提取指定页面和特定页码范围内的页面：

using spire.doc;
 
namespace extractwordpages
{
    class program
    {
        static void main(string[] args)
        {
            // 1. 创建 word 文档对象
            document doc = new document();
 
            // 2. 加载文档
            doc.loadfromfile("c:\\users\\administrator\\desktop\\input.docx");
 
            // 3. 提取第一页（页索引 0）
            document firstpage = doc.extractpages(0, 1);
            firstpage.savetofile("c:\\users\\administrator\\desktop\\output\\firstpage.docx");
 
            // 4. 提取第 2 至第 4 页（页索引 1-3）
            document pagerange = doc.extractpages(1, 3);
            pagerange.savetofile("c:\\users\\administrator\\desktop\\output\\pages_2_to_4.docx");
 
            // 5. 释放资源
            doc.dispose();
            firstpage.dispose();
            pagerange.dispose();
        }
    }
}

示例二、使用 c# 提取 word 文档中不连续的页面

在实际业务中，所需页面往往并不是连续的。例如，你可能只想提取封面页、摘要页和签字页，而跳过中间的内容。

由于页面提取 api 基于连续页范围，不连续页面需要逐页提取后再合并为一个新文档。

示例代码

以下示例展示了如何从 word 文档中提取不连续页面并组合成一个新文档：

using spire.doc;
using spire.doc.documents;
 
namespace extractnoncontiguouspages
{
    class program
    {
        static void main(string[] args)
        {
            // 加载源文档
            document sourcedoc = new document();
            sourcedoc.loadfromfile("c:\\users\\administrator\\desktop\\input.docx");
 
            // 创建目标文档
            document resultdoc = new document();
 
            // 需要提取的页面索引（从 0 开始）
            int[] pagestoextract = { 0, 2, 4 };
 
            foreach (int pageindex in pagestoextract)
            {
                // 提取单页
                document tempdoc = sourcedoc.extractpages(pageindex, 1);
 
                // 将页面内容克隆到目标文档中
                foreach (section section in tempdoc.sections)
                {
                    resultdoc.sections.add(section.clone());
                }
 
                tempdoc.dispose();
            }
 
            // 保存合并后的文档
            resultdoc.savetofile("c:\\users\\administrator\\desktop\\selectedpages.docx", fileformat.docx);
 
            // 释放资源
            sourcedoc.dispose();
            resultdoc.dispose();
        }
    }
}

示例三、使用 c# 将 word 文档按页拆分为多个独立文件

在批量处理或文档管理系统中，常见的需求是将一份 word 文档拆分为多个单页文件，每一页对应一个 word 文档。

示例代码

下面的示例演示了如何使用 c# 将 word 文档按页拆分：

using spire.doc;
 
namespace splitwordbypage
{
    class program
    {
        static void main(string[] args)
        {
            // 加载 word 文档
            document doc = new document();
            doc.loadfromfile("c:\\users\\administrator\\desktop\\input.docx");
 
            // 获取总页数
            int pagecount = doc.pagecount;
 
            // 按页提取并保存
            for (int i = 0; i < pagecount; i++)
            {
                document singlepagedoc = doc.extractpages(i, 1);
                singlepagedoc.savetofile(
                    $"c:\\users\\administrator\\desktop\\output\\page_{i + 1}.docx",
                    fileformat.docx
                );
                singlepagedoc.dispose();
            }
 
            // 释放资源
            doc.dispose();
        }
    }
}