C#使用Spire.PDF for .NET轻松提取PDF文件中的文字内容_Asp.net

在数据处理工作中，pdf 文件因其跨平台、格式稳定的特点而被广泛使用。然而，从 pdf 中提取文本内容却常常令人头疼——无论是整理资料、分析数据，还是构建文本检索系统，高效准确地提取 pdf 文本都是一项基础而重要的需求。本文将介绍如何使用 spire.pdf for .net 这一强大的组件，通过 c# 代码轻松实现 pdf 文本提取。

spire.pdf for .net 简介

spire.pdf for .net 是一款专业的 pdf 组件，它允许开发者在 .net 平台上创建、读取、编辑和转换 pdf 文件，无需安装 adobe acrobat 或其他外部依赖。该组件提供了丰富的 api，其中文本提取功能尤为实用，支持提取整页文本，也支持仅提取指定区域的文本内容。

通过 nuget 安装：

install-package spire.pdf

从指定页面提取全文

在实际应用中，最常见的需求是将某个 pdf 页面的全部文字提取出来。使用 spire.pdf 可以轻松实现这一目标。以下是用 c# 实现的完整代码：

using spire.pdf;
using spire.pdf.texts;
using system.io;

namespace extracttextfromindividualpages
{
    internal class program    
    {
        static void main(string[] args)
        {
            // 创建 pdf 文档实例
            pdfdocument pdf = new pdfdocument();
            // 加载 pdf 文件
            pdf.loadfromfile("input.pdf");

            // 获取要提取文本的页面（例如，索引1对应第二页，注：索引从0开始）
            pdfpagebase page = pdf.pages[1];

            // 为选中的页面创建pdftextextractor实例
            pdftextextractor extractor = new pdftextextractor(page);
            // 设置提取选项
            pdftextextractoptions option = new pdftextextractoptions
            {
                isextractalltext = true
            };
            // 从指定页面提取文本
            string text = extractor.extracttext(option);

            // 将提取的文本保存到文本文件
            file.writealltext("extracted.txt", text);
            // 关闭 pdf 文档
            pdf.close();
        }
    }
}

上述代码的执行流程如下：首先创建 pdfdocument 对象并加载目标 pdf 文件。接着，通过 pages 集合获取指定页面（本例为第一页）。为了实现完整的文本提取，设置 pdftextextractoptions 对象的 isextractalltext 属性为 true，确保提取时不会遗漏任何文本内容。随后，创建 pdftextextractor 对象并传入页面实例，调用 extracttext 方法即可获得该页面的全部文字。最后，将提取到的文本写入本地文件，并关闭文档释放资源。整个过程简洁明了，仅需几行核心代码，便能完成从 pdf 页面到纯文本的转换。

从指定区域提取文本

在某些场景下，我们并不需要整页的内容，而只需要提取页面中的特定区域——例如表格中的某列数据、标题栏、签章区域等。spire.pdf 同样提供了灵活的解决方案。以下是区域提取的 c# 实现代码：

using spire.pdf;
using spire.pdf.texts;
using system.io;
using system.drawing;

namespace extracttextfromdefinedarea
{
    internal class program
    {
        static void main(string[] args)
        {
            // 创建 pdf 文档实例
            pdfdocument pdf = new pdfdocument();
            // 加载 pdf 文件
            pdf.loadfromfile("input.pdf");

            // 获取第二页（索引1对应第二页）
            pdfpagebase page = pdf.pages[1];

            // 为选中的页面创建 pdftextextractor 实例
            pdftextextractor textextractor = new pdftextextractor(page);
            // 设置提取选项（指定矩形区域）
            pdftextextractoptions extractoptions = new pdftextextractoptions
            {
                // 矩形区域参数：x坐标、y坐标、宽度、高度
                extractarea = new rectanglef(0, 0, 595, 300)
            };

            // 从指定矩形区域提取文本
            string text = textextractor.extracttext(extractoptions);

            // 将提取的文本保存到文本文件
            file.writealltext("extracted.txt", text);

            // 关闭 pdf 文档
            pdf.close();
        }
    }
}

与全文提取类似，首先加载 pdf 并获取目标页面。关键区别在于设置提取区域：通过 pdftextextractoptions 的 extractarea 属性，可以定义一个矩形区域，该区域由左上角坐标 (x, y) 以及宽度和高度共同确定。组件会智能地仅提取该矩形范围内的文本内容。本例中定义的矩形区域起始坐标为 (0, 0)，宽度为 595，高度为 300，单位为磅（point）。

这种方法特别适合处理结构化的 pdf 文档，比如财务报表、发票或表单，可以精准定位并提取所需字段，大大提高了信息获取的效率和准确性。