C#代码实现读取并导出PDF书签_Asp.net

pdf 书签（大纲）是文档导航的核心要素，尤其对于长文档或技术手册，提取书签信息可用于生成目录、索引或进行文档结构分析。本文将介绍如何使用 free spire.pdf for .net 库，通过 c# 代码完整读取 pdf 文件中的所有书签（包括多级嵌套书签），并将标题、显示样式等信息导出到文本文件。

1. 环境准备

1.1 安装免费库

在 visual studio 中通过 nuget 包管理器安装 free spire.pdf：

install-package freespire.pdf

该免费版本支持读取 pdf 书签等基础操作，无需额外授权文件，但有单文件10页的页数限制。

1.2 引用命名空间

代码中需要引入以下命名空间：

using system;
using system.io;
using system.text;
using spire.pdf;
using spire.pdf.bookmarks;

2. 核心实现逻辑

整体流程分为四步：

加载目标 pdf 文档。
获取文档的 pdfbookmarkcollection 书签集合。
递归遍历每个书签及其子书签，提取标题和显示样式。
将提取的内容写入文本文件。

2.1 加载文档并获取书签集合

pdfdocument pdf = new pdfdocument();
pdf.loadfromfile(@"d:\test.pdf");
pdfbookmarkcollection bookmarks = pdf.bookmarks;

bookmarks 属性返回一个集合，包含顶层书签。如果文档没有书签，count 为 0。

2.2 递归遍历书签树

书签结构是典型的树形结构：每个书签节点可能拥有子书签集合（通过 count 属性和索引器访问）。我们设计两个方法：

getbookmarks：处理顶层书签，创建 stringbuilder 并启动递归。
getchildbookmark：递归处理子书签。

public static void getbookmarks(pdfbookmarkcollection bookmarks, string result)
{
    stringbuilder content = new stringbuilder();
    if (bookmarks.count > 0)
    {
        content.appendline("pdf bookmarks:");
        foreach (pdfbookmark parentbookmark in bookmarks)
        {
            // 获取标题
            content.appendline(parentbookmark.title);
            // 获取显示样式（如普通、粗体、斜体等）
            content.appendline(parentbookmark.displaystyle.tostring());
            // 递归处理子书签
            getchildbookmark(parentbookmark, content);
        }
    }
    file.writealltext(result, content.tostring());
}

递归方法：

public static void getchildbookmark(pdfbookmark parentbookmark, stringbuilder content)
{
    if (parentbookmark.count > 0)
    {
        foreach (pdfbookmark childbookmark in parentbookmark)
        {
            content.appendline(childbookmark.title);
            content.appendline(childbookmark.displaystyle.tostring());
            getchildbookmark(childbookmark, content);
        }
    }
}

2.3 完整代码示例

以下是一个控制台应用程序的完整实现，将书签信息输出到 getpdfbookmarks.txt 文件。

using system;
using system.io;
using system.text;
using spire.pdf;
using spire.pdf.bookmarks;

namespace getbookmark
{
    internal class program
    {
        static void main(string[] args)
        {
            pdfdocument pdf = new pdfdocument();
            pdf.loadfromfile(@"d:\testp\test.pdf");

            pdfbookmarkcollection bookmarks = pdf.bookmarks;
            string result = "getpdfbookmarks.txt";
            getbookmarks(bookmarks, result);

            console.writeline("书签提取完成，结果已保存至：" + result);
        }

        public static void getbookmarks(pdfbookmarkcollection bookmarks, string result)
        {
            stringbuilder content = new stringbuilder();
            if (bookmarks.count > 0)
            {
                content.appendline("pdf bookmarks:");
                foreach (pdfbookmark parentbookmark in bookmarks)
                {
                    content.appendline(parentbookmark.title);
                    content.appendline(parentbookmark.displaystyle.tostring());
                    getchildbookmark(parentbookmark, content);
                }
            }
            else
            {
                content.appendline("该 pdf 文档不包含任何书签。");
            }
            file.writealltext(result, content.tostring());
        }

        public static void getchildbookmark(pdfbookmark parentbookmark, stringbuilder content)
        {
            if (parentbookmark.count > 0)
            {
                foreach (pdfbookmark childbookmark in parentbookmark)
                {
                    content.appendline(childbookmark.title);
                    content.appendline(childbookmark.displaystyle.tostring());
                    getchildbookmark(childbookmark, content);
                }
            }
        }
    }
}

3. 输出格式说明

生成的文本文件每两行代表一个书签：第一行是标题，第二行是显示样式。例如：

pdf bookmarks:
第1章简介
regular
1.1 背景
bold
1.2 目标
italic
第2章实现
regular
2.1 环境搭建
regular

displaystyle 是一个枚举，可能的值包括：

regular：普通文本
bold：粗体
italic：斜体

根据 pdf 文件的实际书签样式，输出结果会相应变化。

4. 注意事项与扩展

4.1 书签可能为空

若 pdf 没有书签，bookmarks.count 为 0，代码会写入提示信息，避免空文件。

4.2 目标页码与动作的获取

上述示例仅获取了标题和样式。如果需要获取书签跳转的目标页码，可以使用 pdfbookmark.action 属性（需判断动作类型）。例如：

if (parentbookmark.action is pdfgotoaction gotoaction)
{
    int pageindex = pdf.pages.indexof(gotoaction.destination.page);
    content.appendline($"跳转至第 {pageindex + 1} 页");
}

由于 free spire.pdf 对 action 的支持较为完整，可根据实际需求扩展。