Java使用Spire.Doc实现读取或删除Word文档属性_Java

在日常的文档处理工作中，word 文档的属性（也称为元数据）扮演着重要角色。这些信息包括标题、作者、公司、关键词等，虽然不直接显示在正文中，却能帮助我们快速识别文档来源、分类检索，或判断文档用途。然而，在某些场景下（如对外分享文档），我们可能需要移除这些属性以保护隐私。

本文将介绍如何使用 spire.doc for java 这一开源组件，以编程方式读取和删除 word 文档中的内置属性与自定义属性。整个操作无需安装 microsoft office，适合在服务器端或自动化流程中集成。

一、准备工作：引入 spire.doc for java

在开始编码前，需要将 spire.doc for java 引入项目中。该库提供了简洁的 api 来操作 word 文档结构。

方式一：通过 maven 安装

在 pom.xml 中添加以下仓库和依赖：

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupid>e-iceblue</groupid>
        <artifactid>spire.doc</artifactid>
        <version>14.3.1</version>
    </dependency>
</dependencies>

方式二：手动导入 jar 包

若未使用 maven，可从官方渠道下载 spire.doc.jar 文件，并将其添加至项目的构建路径中。

二、读取 word 文档属性

spire.doc 将文档属性分为两类：

内置属性：如标题、主题、作者、公司、类别、关键词、备注等，由 word 预定义。
自定义属性：用户自行定义的属性，支持文本、日期、数字等类型。

以下示例展示如何读取这两类属性：

import com.spire.doc.*;

public class readdocumentproperties {
    public static void main(string[] args) {
        // 加载 word 文档
        document doc = new document("sample.docx");

        // 获取内置属性
        builtindocumentproperties builtin = doc.getbuiltindocumentproperties();
        system.out.println("标题: " + builtin.gettitle());
        system.out.println("主题: " + builtin.getsubject());
        system.out.println("作者: " + builtin.getauthor());
        system.out.println("公司: " + builtin.getcompany());
        system.out.println("关键词: " + builtin.getkeywords());

        // 获取自定义属性
        customdocumentproperties custom = doc.getcustomdocumentproperties();
        for (int i = 0; i < custom.getcount(); i++) {
            documentproperty prop = custom.get(i);
            system.out.println(prop.getname() + ": " + prop.getvalue());
        }
    }
}

上述代码通过 document.getbuiltindocumentproperties() 和 getcustomdocumentproperties() 获取属性集合，随后逐一读取其值。

三、删除 word 文档属性

删除属性的逻辑与读取类似，但操作方式略有不同：

内置属性：无法直接删除，但可通过将其值设置为空字符串来“清空”。
自定义属性：可直接通过 remove() 方法按名称或索引删除。

import com.spire.doc.*;

public class removedocumentproperties {
    public static void main(string[] args) {
        // 加载 word 文档
        document doc = new document("sample.docx");

        // 清空内置属性（设为空字符串）
        builtindocumentproperties builtin = doc.getbuiltindocumentproperties();
        builtin.settitle("");
        builtin.setsubject("");
        builtin.setauthor("");
        builtin.setcompany("");
        builtin.setkeywords("");
        builtin.setcomments("");

        // 删除自定义属性
        customdocumentproperties custom = doc.getcustomdocumentproperties();
        // 方式一：按名称删除
        custom.remove("审核人");
        // 方式二：遍历删除所有
        for (int i = custom.getcount(); i > 0; i--) {
            string name = custom.get(i - 1).getname();
            custom.remove(name);
        }

        // 保存处理后的文档
        doc.savetofile("result.docx", fileformat.docx);
        doc.dispose();
    }
}

需要注意的是，遍历删除自定义属性时建议倒序删除，避免因索引变化导致遗漏。