当前位置: 代码网 > it编程>前端脚本>Python > Python结合OCR实现从扫描件PDF中提取文本

Python结合OCR实现从扫描件PDF中提取文本

2025年10月26日 Python 我要评论
扫描件 pdf 本质是 “图像集合”(每一页都是一张图片),无法直接复制或编辑文本。要提取其中的内容,需借助ocr(光学字符识别)技术。本文将介绍如何通过 python 结合

扫描件 pdf 本质是 “图像集合”(每一页都是一张图片),无法直接复制或编辑文本。要提取其中的内容,需借助ocr(光学字符识别)技术。本文将介绍如何通过 python 结合 ocr 技术实现从扫描件 pdf 中提取文本,涵盖环境搭建及示例代码。

一、核心原理

提取 pdf 扫描件的文本的流程可拆解为 3 步:

  • pdf 转图像:将扫描件 pdf 的每一页拆分为独立图像(如 png/jpg);
  • ocr 识别:用 ocr 工具分析图像,将其中的文字转换为可编辑文本;
  • 结果保存:将识别后的文本汇总到文件中(如 txt)。

二、所需工具

要完成ocr pdf 的任务,需安装以下两个核心库,分工明确:

  • spire.pdf for python: 将 pdf 页面转换为图像(轻量、兼容性好)
  • spire.ocr for python:对转换后的图像执行ocr文本识别 (支持多语言)

安装命令:

打开终端/命令提示符,输入以下pip命令,依次安装两个库:

# 安装pdf转图像库
pip install spire.pdf
# 安装ocr识别库
pip install spire.ocr

背景知识:spire.ocr的用法之前已经详细讲解过,可参考:python利用spire.ocr for python实现从图片中提取文本和坐标

二、pdf文字识别提取步骤

下面我们以 “提取扫描 (图片型)pdf 中的中文文本” 为例,步骤如下。

步骤1:导入核心模块

首先导入两个库的核心类,后续所有操作都基于这些模块:

# 导入spire.pdf的核心类(用于pdf加载和转图像)
from spire.pdf import *
# 导入spire.ocr的核心类(用于ocr引擎初始化和文本识别)
from spire.ocr import *

步骤2:初始化 ocr 引擎(关键配置)

ocr识别的准确率,很大程度取决于引擎的配置—尤其是模型路径和识别语言,这两步错了会直接导致识别失败。

# 初始化 ocrscanner
ocr_scanner = ocrscanner()

# 配置 ocr 依赖
config = configureoptions()
# 设置ocr模型路径 (模型需提前下载,链接在另一篇文章)
config.modelpath = "f:\\ocr model\\win-x64"
# 设置识别语言(支持多语言,如"chinese"“japanese”“french”)
config.language = "chinese"

# 将配置应用到 ocr 引擎
ocr_scanner.configuredependencies(config)

步骤3:加载 pdf 并转换为图像

扫描pdf的本质是“一页页的图像”,所以需要先把pdf的每一页拆成独立图像(建议用png格式,无损压缩不影响识别):

# 加载目标 pdf 文件
pdf_doc = pdfdocument()
pdf_doc.loadfromfile("示例.pdf")  # 替换为你的pdf实际路径

# 循环遍历pdf的每一页,转换为图像并保存
for page_index in range(pdf_doc.pages.count):
    with pdf_doc.saveasimage(page_index) as page_image:
        page_image.save(f"pdf图片_{page_index}.png")  # 保存为png格式,文件名按页码命名
                # 扫描图像
        ocr_scanner.scan(f"pdf图片_{page_index}.png")

步骤4:ocr识别图像并保存文本

最后一步,对每个图像执行ocr识别,再将结果汇总到文本文件中(支持追加写入,避免覆盖):

        # 从图像中提取文本
        scan_result = ocr_scanner.text.tostring()
        
        # 将提取的文本追加写入文件
        with open("pdf文本.txt", 'a', encoding='utf-8') as file:
            file.write(scan_result + '\n')

输出结果:

运行代码后,你会得到两个类型的文件:

1.图像文件:如pdf图片_1.png、pdf图片_2.png,对应pdf的每一页;

2.文本文件pdf文本.txt,里面包含每一页的识别文本,示例如下:

四、常见问题&解决方案

常见问题可能原因解决方案
ocr识别结果乱码/错字多1. 图像分辨率低、模糊;2. 语言设置错误;3. 对比度低1. 确保pdf扫描分辨率≥300dpi;2. 核对language参数(如中文设为"chinese");3. 用图像工具提升对比度
ocr引擎初始化失败1. 模型路径错误;2. 模型文件缺失1. 用绝对路径+原始字符串r"";2. 重新下载完整模型包
pdf加载失败1. 文件路径错误;2. pdf文件损坏;3. 无读取权限1. 检查路径是否有空格/特殊字符;2. 用adobe打开验证文件完整性;3. 赋予文件“读取”权限

到此这篇关于python结合ocr实现从扫描件pdf中提取文本的文章就介绍到这了,更多相关python提取pdf扫描件文本内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com