paddlepaddle介绍
paddlepaddle(飞桨)是百度开发的深度学习平台,旨在为开发者提供全面、灵活的工具集,用于构建、训练和部署各种深度学习模型。它具有开放源代码、高度灵活性、可扩展性和分布式训练等特点。paddlepaddle支持端到端的部署,可以将模型轻松应用于服务器、移动设备和边缘设备。此外,paddlepaddle拥有丰富的预训练模型库,涵盖图像分类、目标检测、语义分割等常见任务。社区支持和生态系统完善,为开发者提供了丰富的教程、文档和示例代码,助力深度学习模型的开发和应用。
paddleocr介绍
paddleocr是基于飞桨(paddlepaddle)深度学习框架开发的开源光学字符识别(ocr)工具。它提供了端到端的ocr解决方案,支持文本检测、文本识别以及关键点检测等功能。paddleocr具有高度灵活性和可扩展性,可以适应多种场景下的文本识别需求,包括身份证识别、车牌识别、表格识别等。通过预训练的模型,paddleocr能够实现高精度的文本检测和识别,同时支持多语言文本识别,包括中文、英文等。此外,paddleocr还提供了丰富的api接口和模型库,方便开发者快速集成和部署ocr功能,助力各种应用场景下的文本识别任务。
paddlesharp介绍
paddlesharp是一个基于c#语言封装的飞桨(paddlepaddle)深度学习框架的库。它为c#开发者提供了在熟悉的环境中利用飞桨强大功能的能力。paddlesharp支持构建、训练和部署各种深度学习模型,包括图像分类、目标检测、语义分割等任务。该库提供了丰富的功能和工具,包括模型构建、预训练模型加载、高性能计算支持等。通过paddlesharp,开发者可以利用飞桨底层计算库实现高性能的深度学习计算,有效地利用gpu或cpu资源。总体而言,paddlesharp为c#开发者提供了一个便捷的工具,使他们能够在c#环境中轻松应用飞桨的深度学习功能。
winform界面设计
winform界面设计如下:
就两个按钮一个富文本框一个picturebox。
步骤
安装对应的nuget
进行图片文字识别
使用的代码也比较简单:
fullocrmodel model = localfullmodels.chinesev3; using (paddleocrall all = new paddleocrall(model, paddledevice.mkldnn()) { allowrotatedetection = true, /* 允许识别有角度的文字 */ enable180classification = false, /* 允许识别旋转角度大于90度的文字 */ }) { // load local file by following code: using (mat src2 = cv2.imread(selectedpicture)) { paddleocrresult result = all.run(src2); richtextbox1.text = result.text; } }
fullocrmodel model = localfullmodels.chinesev3;
这行代码创建了一个fullocrmodel对象,该对象表示paddleocr的模型。localfullmodels.chinesev3是一个预训练的模型,专门用于识别中文字符。
using (paddleocrall all = new paddleocrall(model, paddledevice.mkldnn()) { allowrotatedetection = true, /* 允许识别有角度的文字 */ enable180classification = false, /* 允许识别旋转角度大于90度的文字 */ })
这段代码创建了一个paddleocrall对象,该对象用于运行ocr模型并获取识别结果。paddledevice.mkldnn()表示使用intel的mkl-dnn库来加速计算。
allowrotatedetection = true表示允许识别有角度的文字,即使文字并不完全水平,也能被识别。
enable180classification = false表示不允许识别旋转角度大于90度的文字,如果文字旋转的角度过大,可能无法被正确识别。
using关键字用于确保paddleocrall对象在不再需要时能被正确地释放,避免内存泄漏。
using (mat src2 = cv2.imread(selectedpicture))
这行代码使用opencv的imread函数读取指定路径的图片文件,返回一个mat对象,该对象是opencv用于表示图像的类。selectedpicture是图片文件的路径。using关键字确保mat对象在不再需要时能被正确地释放,避免内存泄漏。
paddleocrresult result = all.run(src2);
这行代码将读取的图片传递给paddleocr模型进行文字识别。all.run(src2)会运行ocr模型并返回识别结果,结果被存储在paddleocrresult对象中。
paddleocrresult是一个record,属性有regions与text:
本示例的regins如下所示:
本示例的text如下所示:
本示例的效果如下图所示:
本示例全部代码:
using opencvsharp; using sdcb.paddleinference; using sdcb.paddleocr.models.local; using sdcb.paddleocr.models; using sdcb.paddleocr; using system.diagnostics; namespace paddlesharpdemo { public partial class form1 : form { string selectedpicture; public form1() { initializecomponent(); } private void button1_click(object sender, eventargs e) { openfiledialog openfiledialog = new openfiledialog(); openfiledialog.filter = "image files(*.bmp;*.jpg;*.gif;*.png)|*.bmp;*.jpg;*.gif;*.png|all files (*.*)|*.*"; openfiledialog.filterindex = 1; openfiledialog.multiselect = false; if (openfiledialog.showdialog() == dialogresult.ok) { selectedpicture = openfiledialog.filename; messagebox.show($"您选中的图片路径为:{selectedpicture}"); // 使用image类加载图片 image image = image.fromfile(selectedpicture); // 让picturebox完全显示图片 picturebox1.sizemode = pictureboxsizemode.zoom; // 将图片显示在picturebox中 picturebox1.image = image; } else { messagebox.show("您本次没有选择任何图片!!!"); } } private void button2_click(object sender, eventargs e) { fullocrmodel model = localfullmodels.chinesev3; using (paddleocrall all = new paddleocrall(model, paddledevice.mkldnn()) { allowrotatedetection = true, /* 允许识别有角度的文字 */ enable180classification = false, /* 允许识别旋转角度大于90度的文字 */ }) { // load local file by following code: using (mat src2 = cv2.imread(selectedpicture)) { paddleocrresult result = all.run(src2); richtextbox1.text = result.text; } } } } }
paddleocr的命令行使用与python脚本使用
我选择paddlesharp的原因是想在c#中应用中直接使用,如果你不熟悉c#,可以选择在命令行或者python脚本中使用paddleocr。
具体安装过程官网上有教程,其他人也出了很多教程,我这里就不重复说了,就简单演示一下命令行与python脚本的使用。
命令行使用
命令:
paddleocr --image_dir ./封面.png --use_angle_cls true --use_gpu false
效果:
python脚本使用
python脚本如下所示:
from paddleocr import paddleocr, draw_ocr # paddleocr目前支持的多语言语种可以通过修改lang参数进行切换 # 例如`ch`, `en`, `fr`, `german`, `korean`, `japan` ocr = paddleocr(use_angle_cls=true, lang="ch") # need to run only once to download and load model into memory img_path = 'd:\\桌面\\2024.04学习内容\\封面.png' result = ocr.ocr(img_path, cls=true) for idx in range(len(result)): res = result[idx] for line in res: print(line) # 显示结果 from pil import image result = result[0] image = image.open(img_path).convert('rgb') boxes = [line[0] for line in result] txts = [line[1][0] for line in result] scores = [line[1][1] for line in result] im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf') im_show = image.fromarray(im_show) im_show.save('result.jpg')
效果如下所示:
生成的图片如下所示:
总结
之前分享过spire.ocr做图片文字识别,但是识别准确率不及paddleocr,并且spire.ocr还不是开源的,因此如果在使用c#的过程中遇到ocr的需求可以尝试使用paddleocr,以上就是本期的分享,希望对你有所帮助。
参考
2、sdcb/paddlesharp: .net/c# binding for baidu paddle inference library and paddleocr (github.com)
到此这篇关于c#如何使用paddleocr进行图片文字识别功能的文章就介绍到这了,更多相关c#图片文字识别内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论