Python 实现 Word 转 HTML 的三种方法_Python

在日常开发和内容管理中，我们经常需要把 word 文档（.docx 或 .doc）转换成 html，以便在网页上展示或做进一步处理。python 提供了方便的工具，让这个过程既可以快速完成，也能在需要时对输出结果做更细致的控制。

在这篇文章里，我会介绍三种常用的 word 转 html 方法，并分享一些实用技巧，帮你在保持文档结构的同时，让输出的 html 更易于维护和使用。

准备工作

在开始编写代码之前，我们需要引入一个能够深度解析 word 文档结构的库。这篇文章使用 spire.doc for python，它一个功能全面的 word 文档处理库，支持读取 word 文档，并将其高质量渲染为 html，且无需在服务器上安装 microsoft office。

步骤 1 – 安装库

通过 python 的包管理工具 pip，你可以快速完成安装：

pip install spire.doc

注意：请确保你的 python 环境版本为 3.7 或更高，以兼容最新特性。

步骤 2 – 资源依赖说明

为了实现高级导出效果，建议提前规划好资源目录：

图片存储目录：如果希望 html 文件保持轻量，不将图片转为 base64 编码嵌入，导出程序会将图片提取到指定文件夹（如 images/）。请在运行代码前创建好该目录，以避免路径错误导致图片丢失。
外部样式表：为了实现网页风格统一，我们通常使用外部 css。请确保指定的 .css 文件路径正确，这样导出的 html 才能正常加载样式。
输出目录：对于批量转换或拆分文档的场景，提前创建好输出目录（如 output/）可避免保存失败。

示例 1 – 基础转换：快速生成标准 html

对于大多数日常需求，我们只需要将 word 内容“搬”到网页上即可。最简单的方法是加载文档并直接保存为 html。这种方式能够自动保留文档的主体结构，如段落、表格、字体加粗等基础格式。

from spire.doc import *
from spire.doc.common import *
# 实例化 document 对象
document = document()
# 加载本地 word 文档 (支持 .doc 或 .docx)
document.loadfromfile("statement.docx")
# 直接保存为 html 格式，库会自动处理大部分格式映射
document.savetofile("wordtohtml.html", fileformat.html)
# 操作完成后关闭文档以释放内存
document.close()

这种方法胜在“快”。当你不需要复杂定制，只想把文档内容快速展示在浏览器中时，它是最高效的选择。

示例 2 – 深度定制：掌控样式与布局

在更专业的场景中，默认转换往往不够用。你可能希望：

去除文档中的页眉和页脚，让网页更清爽
将样式与内容分离，引用外部 css 文件以便后期维护
将图片独立存放以优化加载速度
将表单字段转换为纯文本，避免生成网页表单

通过配置 htmlexportoptions，我们可以实现这些精细化控制：

from spire.doc import *
from spire.doc.common import *
document = document()
document.loadfromfile("statement.docx")
# 布局控制：在导出的 html 中剔除页眉和页脚
document.htmlexportoptions.hasheadersfooters = false
# 样式分离：指定外部 css 文件名
document.htmlexportoptions.cssstylesheetfilename = "sample.css"
document.htmlexportoptions.cssstylesheettype = cssstylesheettype.external
# 图片管理：不嵌入图片，而是提取到指定文件夹
document.htmlexportoptions.imageembedded = false
document.htmlexportoptions.imagespath = "images/"
# 表单处理：将 word 中的文本输入框转换为纯文本
document.htmlexportoptions.istextinputformfieldastext = true
# 执行保存
document.savetofile("wordtohtml_custom.html", fileformat.html)
document.close()

利用这些选项，你可以生成代码更干净、更符合 web 开发规范且更易于二次样式化的 html 文件。

示例 3 – 高级应用：长文档拆分与模块化导出

面对几百页的大型报告或技术手册，将其转换为一个巨大的 html 文件可能导致浏览器卡顿，也不利于阅读。这时，我们需要按章节拆分文档为多个独立 html 页面，同时保持统一的视觉风格。

from spire.doc import *
from spire.doc.common import *
document = document()
document.loadfromfile("report.docx")
# 预设全局导出配置
document.htmlexportoptions.hasheadersfooters = true
document.htmlexportoptions.imageembedded = false
document.htmlexportoptions.imagespath = "images/"
document.htmlexportoptions.cssstylesheettype = cssstylesheettype.external
document.htmlexportoptions.cssstylesheetfilename = "style.css"
# 遍历文档中的每一个 section（节），将其独立导出
for i, section in enumerate(document.sections):
    temp_doc = document()
    temp_doc.sections.add(section.clone())
    temp_doc.savetofile(f"output/section_{i+1}.html", fileformat.html)
    temp_doc.close()
document.close()

这种“分而治之”的方法非常适合：