098基于深度学习的语音识别_Python

本期给大家介绍的是语音识别，效果图如下：

这是运行python 03pyqt.py的可视化界面，通过第一个按钮加载需要检测的音频，运行第三个按钮就会将检测结果，比如cat显示在下方result处。

代码下载和视频演示地址：

代码整体是非常简便的，总共三个py部分和一个数据集在data文件夹下。另外python的安装环境写在了requirement里面。

data文件夹里面一共是三个类别的语音，分别是bird、cat和dog。有兴趣的小伙伴也可以自行扩充数据集，或训练自己的数据集。

运行python 01数据集文本生成制作.py 会在logs文件夹下生成2个txt文本，分别存放了wav音频的路径和对应的标签。

运行python 02train.py就会训练这个txt文本里面的数据，并将训练的模型与验证集里面的数据进行验证。以下是训练过程的展示。

最后模型也是保存在logs文件夹下。

最后运行python 03pyqt.py即可加载训练好的模型，对输入的音频进行识别。

xlnet这个模型还是相当复杂的，我看了很长一段时间也还是有很多地方没有搞明白，最后又在网上搜了很多大佬写的相关博客，才算是大致弄明白了，想了解xlnet的原理，请参考原论文，这里…

2024年07月31日 • 前端脚本

年底了，技术群组织了一场算法岗技术&面试讨论会，邀请了一些同学分享他们的面试经历，讨论会会定期召开， [阅读全文]

本篇是关于 OpenAI Gym-CarRacing自动驾驶项目的博客，面向掌握 Python 并有一定的深度强化学习基础的读者。GYM-Box2D CarRa... [阅读全文]

carsim内部有许多相关联合仿真的demo，simulink、labview等等都有涉及，这里简单介绍下python和carsim联合仿真的方法，虽然carsim官方有个Stee…

2024年07月31日 • 前端脚本

运动预测(Motion Prediction)模块主要解决自动驾驶车辆与周围环境中的其它运动物体(车辆、行人等)的协同交互问题。该模块对感知模块所检测到的运动物... [阅读全文]

该例程实现的功能是，可为想拿K210做视觉循迹开发作为参考例程使用前需要搭建好MicroPython的。…

2024年07月31日 • 前端脚本


验证码：

验证码：

098基于深度学习的语音识别