Python验证码识别方式(使用pytesseract库)_Python

python中使用pytesseract库进行ocr识别，需要安装tesseract-ocr，通过指定pytesseract.tesseract_cmd路径，可以将esseract-ocr集成到pytho程序中，避免客户端电脑的依赖。

1、安装tesseract-ocr

tesseract是一个高度精确的开源ocr（光学字符识别）系统，广泛应用于文本识别项目中。

下载地址：

https://digi.bib.uni-mannheim.de/tesseract/
选择最新的稳定版下载

安装程序：下载后安装程序

中文包下载：

地址：https://gitcode.com/open-source-toolkit/90e2f
下载了最新版本的chi-sim.traineddata文件，复制到tesseract的tessdata目录下
通常，路径类似于c:\program files\tesseract\tessdata（windows）
或 /usr/share/tesseract-ocr/4.00/tessdata（linux）。

2、在python中使用

安装依赖

pip install pytesseract

3、本地图片识别

import pytesseract
from pil import image

# 获取文件的绝对路径
def get_abspath(filename):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, filename))
        # print(f"get_abspath文件路径：{filename}")
        return filename
    except exception as e:
        print(f"获取文件绝对路径时出现错误: {e}")
        return ""
        
# 手动指定路径（windows常见） tesseract 系统路径
driver_path = r"tesseract-ocr\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)

#使用示例
if __name__ == "__main__":
  # 1 识别本地图片 
  # 英文识别
  current_dir = os.getcwd()
    filename = os.path.normpath(os.path.join(current_dir, f"code.jpg"))
    file = image.open(filename)
    text = pytesseract.image_to_string(file, lang="eng")
    print(text)
  #中文识别，需要下载语言包
    filename = os.path.normpath(os.path.join(current_dir, f"sushi.png"))
    file = image.open(filename)
    text = pytesseract.image_to_string(file, lang='chi_sim') 
    print(f"识别结果：{text}")

识别结果示例：

4、结合playwright动态识别网站验证码

import os
import pytesseract
from pil import image
from playwright.sync_api import playwright
import tools.pwhander as pwhander
from pil import image

# 获取文件的绝对路径
def get_abspath(filename):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, filename))
        # print(f"get_abspath文件路径：{filename}")
        return filename
    except exception as e:
        print(f"获取文件绝对路径时出现错误: {e}")
        return ""
        
# 手动指定路径（windows常见） tesseract 系统路径
driver_path = r"tesseract-ocr\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)

# 验证码图片识别
def get_captcha(page: playwright, element_selector="img#captcha", file_name="code.jpg"):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, f"{file_name}"))
               
        # 通过class选择器获取img元素
        code_img = page.locator(element_selector)
        if not code_img:
            raise valueerror("验证码元素未找到！")

        # 刷新验证码
        # code_img.click()

        # 下载验证码图片
        code_img.screenshot(path=filename)

        file = image.open(filename)
        text = pytesseract.image_to_string(file, lang="eng")
        print("验证码识别结果:", text)
        return text.strip()
    except exception as e:
        print(f"获取验证码 失败：{str(e)}")
        return ""
#使用示例
if __name__ == "__main__":
  # 2 动态识别网站验证码
  with sync_playwright() as p:
   		browser = p.chromium.launch(headless=false, slow_mo=1000)
        context = browser.new_context()
        page = context.new_page()
        page.goto("测试网址")
	    # 验证码图片下载
	    imgtext = get_captcha(page, "img#jcaptcha")
	    print(f"验证码：{imgtest}")

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

一文详解python中抽象基类使用指南

在python中，抽象基类是一类特殊的类，它不能被实例化，主要用于作为基类被其他子类继承。抽象基类的核心作用是为一组相关的子类提供统一的蓝图或接口规范，明确规定... [阅读全文]

详解如何使用Python从零开始构建文本统计模型

一、项目背景与核心思想在自然语言处理领域，词汇表构建是文本预处理的关键环节。本文通过python代码实践，演示如何从原始文本中提取多尺度特征（1-5字符片段），... [阅读全文]

Python实现快速抓取网页数据的5种高效方法

前言在当今大数据时代，网页数据抓取(web scraping)已成为获取信息的重要手段。无论是市场调研、竞品分析还是学术研究，高效获取网页数据都是必备技能。本文... [阅读全文]

使用Python开发一个智能桌面单词记忆工具

一、概述：当单词记忆遇上python gui在英语学习过程中，高频重复是记忆单词的关键。传统背单词软件往往需要用户主动打开应用，而本项目的创新之处在于开发了一个桌面悬浮窗单词记忆工…

2025年06月04日 • 前端脚本

Macos创建python虚拟环境的详细步骤教学

在 macos 上创建 python 虚拟环境主要通过 python 内置的venv模块实现，也可使用第三方工具如virtualenv。以下是详细步骤和方法：一... [阅读全文]

Python程序打包exe,单文件和多文件方式

python 脚本打成exe文件安装pyinstallerpip install pyinstaller如遇网速慢使用国内镜像源小技巧：pip install ... [阅读全文]


验证码：

验证码：

Python验证码识别方式(使用pytesseract库)

2025年06月04日 • Python •我要评论

1、安装tesseract-ocr

2、在python中使用

3、本地图片识别

4、结合playwright动态识别网站验证码

总结

相关文章:

使用Python开发一个智能桌面单词记忆工具

发表评论