FunASR(A Fundamental End-to-End Speech Recognition Toolkit)是一个基础的语音识别工具包,提供多种功能,包括等。
funasr(a fundamental end-to-end speech recognition toolkit)是一个基础的语音识别工具包,提供多种功能,包括语音识别(asr)、语音端点检测(vad)、标点恢复(pr)、语言模型(lm)、说话人分离等。项目源地址
1 语音识别(asr)
参考语音交互:聊聊语音识别-asr(万字长文)
1.1 语料库
1.2 音频采集
1.3 预处理
1.4 特征参数提取
语音情绪识别一般会有两种方法:
参考音调、音色、响度、频率之间的互相影响
最常用到的声学语音特征是梅尔倒谱系数(mel-scalefrequency cepstral coefficients, mfcc)。
1.3 声学模型(am)
目前的主流算法是混合高斯模型+隐马尔可夫模型(gmm-hmm),也有基于深度学习的模型。
1.4 语言模型(lm)
1.5 模型训练
1.6 模型匹配
1.7 后处理
2 语音端点检测(vad)
在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成干扰,这个切除静音的炒作一般称为 vad。
3 标点恢复(pr)
4 说话人分离技术
5 语音识别实战
参考实时语音识别(python+html实战)
相关文章:
-
会出现如下界面,然后选择直接浏览 Anaconda3 安装目录下的 envs 文件夹,找到 DL 目录.,能看到pthon.exe文件,选择。安装提示安装就可以,安装过程会看到他提…
-
深度学习在自动驾驶领域的应用非常广泛,它可以帮助车辆感知周围环境、做出决策和规划行驶路径。深度学习在自动驾驶领域的应用可以提高车辆的感知能力、决策能力和自主行驶能力,从而实现更加安…
-
Python实现多维数据K-means聚类散点图…
-
监督学习的核心在于使用带有标签的训练数据来训练模型,以便模型能够学习输入到输出之间的映射关系。在这个过程中,算法会尝试找到一个最优的模型,使得对于新的输入数据,能够预测出正确的输出…
-
-
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论