当前位置: 代码网 > it编程>前端脚本>Python > FunASR 语音识别系统概述

FunASR 语音识别系统概述

2024年08月04日 Python 我要评论
FunASR(A Fundamental End-to-End Speech Recognition Toolkit)是一个基础的语音识别工具包,提供多种功能,包括等。

funasr(a fundamental end-to-end speech recognition toolkit)是一个基础的语音识别工具包,提供多种功能,包括语音识别(asr)语音端点检测(vad)标点恢复(pr)语言模型(lm)说话人分离等。项目源地址

 1 语音识别(asr)

参考语音交互:聊聊语音识别-asr(万字长文)

1.1 语料库

1.2 音频采集

1.3 预处理

1.4 特征参数提取

语音情绪识别一般会有两种方法:

 参考音调、音色、响度、频率之间的互相影响

最常用到的声学语音特征是梅尔倒谱系数(mel-scalefrequency cepstral coefficients, mfcc)。

1.3 声学模型(am)

目前的主流算法是混合高斯模型+隐马尔可夫模型(gmm-hmm),也有基于深度学习的模型。

1.4 语言模型(lm) 

1.5 模型训练

1.6 模型匹配

1.7 后处理

2 语音端点检测(vad)

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成干扰,这个切除静音的炒作一般称为 vad。

3 标点恢复(pr)

4 说话人分离技术

5 语音识别实战

参考实时语音识别(python+html实战)

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com