当前位置: 代码网 > it编程>网页制作>网页播放器 > C#使用Spire.Doc将HTML转换为文本的代码实现

C#使用Spire.Doc将HTML转换为文本的代码实现

2025年10月12日 网页播放器 我要评论
引言在 .net 开发中,将 html 转换为纯文本是一项常见任务,无论是从网页中提取内容、处理 html 邮件,还是生成轻量级的文本报告。然而,html 丰富的格式、标签和结构元素,往往会让需要干净

引言

在 .net 开发中,将 html 转换为纯文本是一项常见任务,无论是从网页中提取内容、处理 html 邮件,还是生成轻量级的文本报告。然而,html 丰富的格式、标签和结构元素,往往会让需要干净、无格式文本的工作流程变得复杂。因此,使用 c# 进行 html 到文本的转换就显得尤为重要。

spire.doc for .net 简化了这一过程——它是一款功能强大的文档处理库,原生支持加载 html 文件或字符串,并将其转换为干净的纯文本。本文将介绍如何使用该库在 c# 中将 html 转换为纯文本,并详细讲解两种核心场景:转换 html 字符串(内存中的内容)转换 html 文件(磁盘中的内容)

为什么选择使用 spire.doc 进行 html 到文本的转换?

spire.doc 是一款用于 .net 的文档处理库,在执行 html 到文本转换方面具有以下显著优势:

  • 代码简洁:只需几行代码即可处理复杂的 html 内容。
  • 结构保留:在输出文本中保留逻辑格式,如换行符和列表缩进。
  • 特殊字符支持:自动将 html 实体转换为对应的纯文本字符。
  • 轻量高效:无繁重依赖,适用于桌面端和 web 应用程序。

安装 spire.doc

spire.doc 可以通过 nuget 获取,这是管理依赖项的最简便方式:

  1. 在 visual studio 中,右键单击你的项目,选择 “管理 nuget 程序包”
  2. 搜索 spire.doc,并安装最新的稳定版本。
  3. 或者,你也可以使用 程序包管理器控制台,运行以下命令:
install-package spire.doc

安装完成后,你就可以开始编写 c# 代码,从 html 中提取文本内容了。

在 c# 中将 html 字符串转换为文本

本示例将一个 html 字符串加载为一个 document 对象,然后使用 savetofile() 方法将其保存为纯文本文件。

using spire.doc;
using spire.doc.documents;
 
namespace htmltotextsaver
{
    class program
    {
        static void main(string[] args)
        {
            // 定义 html 内容
            string htmlcontent = @"
                    <html>
                        <body>
                            <h1>示例 html 内容</h1>
                            <p>这是一个包含 <strong>加粗</strong> 和 <em>斜体</em> 的段落.</p>
                            <p>另一行包含一个 <a href='https://example.com'>链接</a>.</p>
                            <ul>
                                <li>列表项 1</li>
                                <li>列表项 2 (包含 <em>斜体</em> 文本)</li>
                            </ul>
                            <p>特殊字符: &copy; &amp; &reg;</p>
                        </body>
                    </html>";
 
            // 创建 document 对象
            document doc = new document();
            // 添加一个节以容纳内容
            section section = doc.addsection();
            // 添加一个段落
            paragraph paragraph = section.addparagraph();
            // 将 html 渲染到段落中
            paragraph.appendhtml(htmlcontent); 
 
            // 另存为纯文本文件
            doc.savetofile("htmlstringtotext.txt", fileformat.txt);
        }
    }
}

在 c# 中将 html 文件转换为文本

本示例演示如何直接加载一个 html 文件并将其转换为纯文本。该方法非常适合批量处理或处理现有的 html 文档(例如已下载的网页或本地模板)。

using spire.doc;
using spire.doc.documents;
 
namespace htmltotext
{
    class program
    {
        static void main()
        {
            // 创建 document 对象
            document doc = new document();
 
            // 加载html文件
            doc.loadfromfile("sample.html", fileformat.html, xhtmlvalidationtype.none);
 
            // 将html另存为纯文本文件
            doc.savetofile("htmltotext.txt", fileformat.txt);
            doc.dispose();
        }
    }
}

结论

使用 spire.doc 库在 c# 中将 html 转换为文本非常简单。无论你处理的是 html 字符串还是 html 文件,spire.doc 都能通过自动解析 html、保留结构格式并完成文本转换,极大地简化这一过程。通过本文提供的示例,你可以轻松地将 html 到文本的转换功能集成到你的 c# 应用程序中。

到此这篇关于c#使用spire.doc将html转换为文本的代码实现的文章就介绍到这了,更多相关c# spire.doc将html转文本内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com