Python实现HTML文件或字符串转换为纯文本TXT_Python

1. 引言

在数据处理、内容提取、网页归档等任务中，经常需要将 html 转换为纯文本 txt。常见需求包括去除 html 标签，保留文本内容，保留段落、列表等基本结构。

本文将介绍如何用 python 和 free spire.doc 库完成 html 到 txt 的转换。

2. 转换原理

html 转 txt 的本质是解析 html 文档对象模型（dom），提取其中的文本节点，再按需要的格式输出。
常用方法有两类：

纯解析器（如 beautifulsoup、lxml）：快速、轻量，但需要自己处理换行和缩进。
文档模型类库（如 free spire.doc）：加载 html 到文档对象，再导出为 txt，结构保留更好。

3. 环境准备

安装 free spire.doc for python：

pip install spire.doc.free

注意点击查看免费版的限制

4. 基本实现

4.1 html 文件 → txt 文件

下面是一个将 html 文件转换为 txt 文本的简单示例：

from spire.doc import *
from spire.doc.common import *

# 加载html文件
document = document()
document.loadfromfile("e:\input.html", fileformat.html, xhtmlvalidationtype.none)

# 另存为txt文件
document.savetofile("html文件转txt.txt", fileformat.txt)
document.close()

核心代码：

loadfromfile()：加载 html 文件。fileformat.html 表示文件格式为 html。
savetofile()：将文档保存为 txt 格式。fileformat.txt 表示保存为纯文本。

输出结果：

4.2 html 字符串 → txt 文件

若 html 内容已在内存中（如接口返回、爬虫抓取结果），可使用该方法：

from spire.doc import *
from spire.doc.common import *

# 指定html字符串
sample_html = """
<html>
<head><title>示例页面</title></head>
<body>
    <h1>欢迎来到我的网站</h1>
    <p>这是一个段落文本。</p>
    <ul>
        <li>项目1</li>
        <li>项目2</li>
        <li>项目3</li>
    </ul>
</body>
</html>
"""

# 创建文档
document = document()
# 在段落中插入字符串
section = document.addsection()
section.addparagraph().appendhtml(sample_html)

# 另存为txt
document.savetofile("html字符串转txt.txt", fileformat.txt)
document.close()

输出结果：

5. 注意事项

格式保留：转换后的 txt 会保留 html 的段落结构（换行、列表等），但不保留颜色、字体等样式。
性能：对于超大型 html 文件，建议分段处理以避免内存占用过高。
复杂 html：对于包含大量 javascript、css 或复杂布局的 html，建议先用对文件进行预处理再转换。

使用 free spire.doc for python 转换 html 到 txt 非常方便，只需几行代码即可完成，并且能够较好地保留原有的文本结构。相比正则表达式或简单的标签剥离方法，这种方式更稳定可靠。

到此这篇关于python实现html文件或字符串转换为纯文本txt的文章就介绍到这了,更多相关python html转txt内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

从基础到高级详解Python与关系型数据库交互的完全指南

引言在当今数据驱动的开发环境中，与关系型数据库进行高效交互已成为python开发者必备的核心技能。无论是web应用、数据分析平台还是企业级系统，都需要与... [阅读全文]

Python打包成exe常用的四种方法小结

将python脚本打包成可执行文件（.exe）是分发python应用程序的常见方式。以下是几种常用的方法：一.pyinstaller1pyinstaller 是... [阅读全文]

Python中isinstance()函数原理解释及详细用法示例

python中isinstance()函数原理解释及详细用法指南一、isinstance()函数概述isinstance()是python内置的一个非常有用的函... [阅读全文]

Python sys模块的使用及说明

python sys 模块详解sys 模块是 python 标准库中与解释器交互的核心模块，提供了访问和操作 python 运行时环境的变量和函数。以下从常用功... [阅读全文]

Python pickle模块的使用指南

python pickle 模块详解python 的 pickle 模块是一个用于序列化和反序列化 python 对象结构的强大工具。它可以将 python 对... [阅读全文]

Python之变量命名规则详解

在 python 编程中，变量命名看似是 “小事”，却直接影响代码的可读性、可维护性，甚至团队协作效率。糟糕的命名会让后续调试、迭代变得... [阅读全文]


验证码：

验证码：

Python实现HTML文件或字符串转换为纯文本TXT

2025年09月28日 • Python •我要评论