1. 背景
有时候,我们需要获取一个word格式文档(docx)的页数,甚至在某一页做某些操作,如果我们使用com+调用office
或wps
这些商用软件,是相当方便的,而使用aspose.word
这些商业库,也是短短几行代码的事情。然而,当程序跑在某些特定的环境(例如没有office软件的环境),或者我们资金有限而又有道德洁癖(不愿意使用盗版),获取docx文件页数,这种看似简单的问题反而变得复杂,因为我们常用的开源库poi/npoi
或openxml sdk
等,并没有提供这样的操作。
本着“自己动手,丰衣足食”的原则,那就自己手工写代码看看吧,顺道把坑踩一遍。
2. docx是一个zip
既然是要自己写代码处理这种问题,那么我们要回到问题的本质——word的docx文档究竟是什么?.docx
文件本质上就是一个 zip压缩包。我们将.docx
文件扩展名改为.zip
,然后使用解压缩工具来打开它。解压后,你会发现其中包含许多xml文件和媒体文件(如下图),它们共同构成了word文档的内容和格式。
可见,我们可以从这对xml文件着手,解决问题,而word的这种docx文档有什么特点呢?我也请教了ai:
- 基于 open xml 标准:.docx 格式是微软word(从2007版本开始)所使用的基于office open xml标准的文件格式。
- 包含大量xml文件:与旧的二进制格式的.doc文件不同,.docx 文件是一个包含多个xml文件的压缩集合。
- 主要内容:解压后,核心的文本内容通常保存在
word/document.xml
文件中,而文档的样式信息、媒体文件等则分别存储在其他文件夹或文件中。 - 优点:这种基于xml和压缩的格式使得文件更小,并且允许更灵活地访问和编辑文档的内部结构。
那么,我们的这个奇奇怪怪的获取docx文档页数的方法,就从word/document.xml
文件开始了。
3. 使用c#代码解压docx文档
解压这样的文档,并不复杂,直接用zipfile
这样的库即可,示例代码如下:
var docxfile = $@"{environment.currentdirectory}{path.directoryseparatorchar}test.docx"; var extractedpath = $@"{environment.currentdirectory}{path.directoryseparatorchar}extracted"; var xmlpath = $@"{extractedpath}{path.directoryseparatorchar}word{path.directoryseparatorchar}document.xml"; if (file.exists(docxfile)) { system.io.compression.zipfile.extracttodirectory(docxfile, extractedpath, true); // 最后一个参数为true,目录已存在则覆盖 console.writeline($"extracted {docxfile} to {extractedpath}"); } else { console.writeline($"file {docxfile} does not exist."); }
解压后的目录如下:
4. 那个自称document的xml
进入解压后的word
目录了,我们可以找到document.xml
文件,敢自称document,也肯定是有点东西的,打开一看,确实名副其实:
可见一个word文档的整体脉络以及主要的行文,都在这里面了。当然,文档里的图片等资源也是记录在这里,例如对某个资源的引用<a:blip r:embed="rid7"/>
等,当然这还牵涉到media
和document.xml.rels
中的引用关系等等,有机会再细说。那么,回到本次描述的“获取文档页数”这个操作,就比较简单了,只要我们找到里面的<w:lastrenderedpagebreak/>
元素,问题就可以解决了。顾名思义,该元素是用于给word文档分页的,相当于用它来“切香肠”,一刀分两页,两刀分三页,以此类推……
5. 查找并统计分页标签
使用自带的system.xml
库,可以对xml文件进行解析,查找并获取<w:lastrenderedpagebreak/>
,实现定位和统计等功能(本文就以统计为例)。
if (file.exists(xmlpath)) { var xmlcontent = file.readalltext(xmlpath); var xmldoc = new system.xml.xmldocument(); xmldoc.loadxml(xmlcontent); var nsmgr = new system.xml.xmlnamespacemanager(xmldoc.nametable); nsmgr.addnamespace("w", "http://schemas.openxmlformats.org/wordprocessingml/2006/main"); var nodes = xmldoc.selectnodes("//w:lastrenderedpagebreak", nsmgr); var cnt = nodes?.count ?? 0; console.writeline($"使用xml解析的方式找到 <w:lastrenderedpagebreak /> 节点数量: {cnt}"); console.writeline($"该文档共有 {cnt + 1} 页"); } else { console.writeline($"file {xmlpath} does not exist."); }
以本文中的测试文档为例,文档共7页,查找并计算出来的页数也是7页,结果与实际一致。
到此这篇关于c#获取word格式文档页数的方法的文章就介绍到这了,更多相关c#获取word文档页数内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论