C#获取Word格式文档页数的方法_Asp.net

1. 背景

有时候，我们需要获取一个word格式文档（docx）的页数，甚至在某一页做某些操作，如果我们使用com+调用office或wps这些商用软件，是相当方便的，而使用aspose.word这些商业库，也是短短几行代码的事情。然而，当程序跑在某些特定的环境（例如没有office软件的环境），或者我们资金有限而又有道德洁癖（不愿意使用盗版），获取docx文件页数，这种看似简单的问题反而变得复杂，因为我们常用的开源库poi/npoi或openxml sdk等，并没有提供这样的操作。
本着“自己动手，丰衣足食”的原则，那就自己手工写代码看看吧，顺道把坑踩一遍。

2. docx是一个zip

既然是要自己写代码处理这种问题，那么我们要回到问题的本质——word的docx文档究竟是什么？.docx 文件本质上就是一个 zip压缩包。我们将.docx 文件扩展名改为.zip，然后使用解压缩工具来打开它。解压后，你会发现其中包含许多xml文件和媒体文件（如下图），它们共同构成了word文档的内容和格式。

可见，我们可以从这对xml文件着手，解决问题，而word的这种docx文档有什么特点呢？我也请教了ai：

基于 open xml 标准：.docx 格式是微软word（从2007版本开始）所使用的基于office open xml标准的文件格式。
包含大量xml文件：与旧的二进制格式的.doc文件不同，.docx 文件是一个包含多个xml文件的压缩集合。
主要内容：解压后，核心的文本内容通常保存在 word/document.xml 文件中，而文档的样式信息、媒体文件等则分别存储在其他文件夹或文件中。
优点：这种基于xml和压缩的格式使得文件更小，并且允许更灵活地访问和编辑文档的内部结构。

那么，我们的这个奇奇怪怪的获取docx文档页数的方法，就从word/document.xml文件开始了。

3. 使用c#代码解压docx文档

解压这样的文档，并不复杂，直接用zipfile这样的库即可，示例代码如下：

var docxfile = $@"{environment.currentdirectory}{path.directoryseparatorchar}test.docx";
var extractedpath = $@"{environment.currentdirectory}{path.directoryseparatorchar}extracted";
var xmlpath = $@"{extractedpath}{path.directoryseparatorchar}word{path.directoryseparatorchar}document.xml";

if (file.exists(docxfile))
{
    system.io.compression.zipfile.extracttodirectory(docxfile, extractedpath, true); // 最后一个参数为true，目录已存在则覆盖
    console.writeline($"extracted {docxfile} to {extractedpath}");
}
else
{
    console.writeline($"file {docxfile} does not exist.");
}

解压后的目录如下：

4. 那个自称document的xml

进入解压后的word目录了，我们可以找到document.xml文件，敢自称document，也肯定是有点东西的，打开一看，确实名副其实：

可见一个word文档的整体脉络以及主要的行文，都在这里面了。当然，文档里的图片等资源也是记录在这里，例如对某个资源的引用<a:blip r:embed="rid7"/>等，当然这还牵涉到media和document.xml.rels中的引用关系等等，有机会再细说。那么，回到本次描述的“获取文档页数”这个操作，就比较简单了，只要我们找到里面的<w:lastrenderedpagebreak/>元素，问题就可以解决了。顾名思义，该元素是用于给word文档分页的，相当于用它来“切香肠”，一刀分两页，两刀分三页，以此类推……

5. 查找并统计分页标签

使用自带的system.xml库，可以对xml文件进行解析，查找并获取<w:lastrenderedpagebreak/>，实现定位和统计等功能（本文就以统计为例）。

if (file.exists(xmlpath))
{
    var xmlcontent = file.readalltext(xmlpath);
    var xmldoc = new system.xml.xmldocument();
    xmldoc.loadxml(xmlcontent);

    var nsmgr = new system.xml.xmlnamespacemanager(xmldoc.nametable);
    nsmgr.addnamespace("w", "http://schemas.openxmlformats.org/wordprocessingml/2006/main");

    var nodes = xmldoc.selectnodes("//w:lastrenderedpagebreak", nsmgr);
    var cnt = nodes?.count ?? 0;

    console.writeline($"使用xml解析的方式找到 <w:lastrenderedpagebreak /> 节点数量: {cnt}");
    console.writeline($"该文档共有 {cnt + 1} 页");
}
else
{
    console.writeline($"file {xmlpath} does not exist.");
}

以本文中的测试文档为例，文档共7页，查找并计算出来的页数也是7页，结果与实际一致。