pdf 书签(大纲)是文档导航的核心要素,尤其对于长文档或技术手册,提取书签信息可用于生成目录、索引或进行文档结构分析。本文将介绍如何使用 free spire.pdf for .net 库,通过 c# 代码完整读取 pdf 文件中的所有书签(包括多级嵌套书签),并将标题、显示样式等信息导出到文本文件。
1. 环境准备
1.1 安装免费库
在 visual studio 中通过 nuget 包管理器安装 free spire.pdf:
install-package freespire.pdf
该免费版本支持读取 pdf 书签等基础操作,无需额外授权文件,但有单文件10页的页数限制。
1.2 引用命名空间
代码中需要引入以下命名空间:
using system; using system.io; using system.text; using spire.pdf; using spire.pdf.bookmarks;
2. 核心实现逻辑
整体流程分为四步:
- 加载目标 pdf 文档。
- 获取文档的
pdfbookmarkcollection书签集合。 - 递归遍历每个书签及其子书签,提取标题和显示样式。
- 将提取的内容写入文本文件。
2.1 加载文档并获取书签集合
pdfdocument pdf = new pdfdocument(); pdf.loadfromfile(@"d:\test.pdf"); pdfbookmarkcollection bookmarks = pdf.bookmarks;
bookmarks 属性返回一个集合,包含顶层书签。如果文档没有书签,count 为 0。
2.2 递归遍历书签树
书签结构是典型的树形结构:每个书签节点可能拥有子书签集合(通过 count 属性和索引器访问)。我们设计两个方法:
getbookmarks:处理顶层书签,创建stringbuilder并启动递归。getchildbookmark:递归处理子书签。
public static void getbookmarks(pdfbookmarkcollection bookmarks, string result)
{
stringbuilder content = new stringbuilder();
if (bookmarks.count > 0)
{
content.appendline("pdf bookmarks:");
foreach (pdfbookmark parentbookmark in bookmarks)
{
// 获取标题
content.appendline(parentbookmark.title);
// 获取显示样式(如普通、粗体、斜体等)
content.appendline(parentbookmark.displaystyle.tostring());
// 递归处理子书签
getchildbookmark(parentbookmark, content);
}
}
file.writealltext(result, content.tostring());
}
递归方法:
public static void getchildbookmark(pdfbookmark parentbookmark, stringbuilder content)
{
if (parentbookmark.count > 0)
{
foreach (pdfbookmark childbookmark in parentbookmark)
{
content.appendline(childbookmark.title);
content.appendline(childbookmark.displaystyle.tostring());
getchildbookmark(childbookmark, content);
}
}
}
2.3 完整代码示例
以下是一个控制台应用程序的完整实现,将书签信息输出到 getpdfbookmarks.txt 文件。
using system;
using system.io;
using system.text;
using spire.pdf;
using spire.pdf.bookmarks;
namespace getbookmark
{
internal class program
{
static void main(string[] args)
{
pdfdocument pdf = new pdfdocument();
pdf.loadfromfile(@"d:\testp\test.pdf");
pdfbookmarkcollection bookmarks = pdf.bookmarks;
string result = "getpdfbookmarks.txt";
getbookmarks(bookmarks, result);
console.writeline("书签提取完成,结果已保存至:" + result);
}
public static void getbookmarks(pdfbookmarkcollection bookmarks, string result)
{
stringbuilder content = new stringbuilder();
if (bookmarks.count > 0)
{
content.appendline("pdf bookmarks:");
foreach (pdfbookmark parentbookmark in bookmarks)
{
content.appendline(parentbookmark.title);
content.appendline(parentbookmark.displaystyle.tostring());
getchildbookmark(parentbookmark, content);
}
}
else
{
content.appendline("该 pdf 文档不包含任何书签。");
}
file.writealltext(result, content.tostring());
}
public static void getchildbookmark(pdfbookmark parentbookmark, stringbuilder content)
{
if (parentbookmark.count > 0)
{
foreach (pdfbookmark childbookmark in parentbookmark)
{
content.appendline(childbookmark.title);
content.appendline(childbookmark.displaystyle.tostring());
getchildbookmark(childbookmark, content);
}
}
}
}
}
3. 输出格式说明
生成的文本文件每两行代表一个书签:第一行是标题,第二行是显示样式。例如:
pdf bookmarks:
第1章 简介
regular
1.1 背景
bold
1.2 目标
italic
第2章 实现
regular
2.1 环境搭建
regular
displaystyle 是一个枚举,可能的值包括:
regular:普通文本bold:粗体italic:斜体
根据 pdf 文件的实际书签样式,输出结果会相应变化。
4. 注意事项与扩展
4.1 书签可能为空
若 pdf 没有书签,bookmarks.count 为 0,代码会写入提示信息,避免空文件。
4.2 目标页码与动作的获取
上述示例仅获取了标题和样式。如果需要获取书签跳转的目标页码,可以使用 pdfbookmark.action 属性(需判断动作类型)。例如:
if (parentbookmark.action is pdfgotoaction gotoaction)
{
int pageindex = pdf.pages.indexof(gotoaction.destination.page);
content.appendline($"跳转至第 {pageindex + 1} 页");
}
由于 free spire.pdf 对 action 的支持较为完整,可根据实际需求扩展。
4.3 性能考虑
对于包含数千个书签的 pdf,递归遍历不会有明显性能问题。但若需频繁提取,可考虑将 stringbuilder 替换为 streamwriter 流式写入,降低内存占用。
4.4 编码处理
file.writealltext 默认使用 utf-8 编码,如需指定编码(如 gb2312),可改用 streamwriter。
5. 总结
本文演示了如何利用免费 .net 库完整提取 pdf 文档的多级书签信息。关键技术点包括:
- 通过
pdfdocument.bookmarks获取根书签集合。 - 递归遍历
pdfbookmark节点的count和索引器。 - 读取
title和displaystyle属性。 - 将结构化数据写入文本文件。
这种方法不依赖 adobe acrobat 或其他 gui 工具,非常适合集成到后台服务或文档处理管道中。开发者可以根据上述模式进一步扩展,获取书签的页码、缩放方式甚至修改书签结构。
到此这篇关于c#代码实现读取并导出pdf书签 的文章就介绍到这了,更多相关c#读取并导出pdf书签 内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论