当前位置: 代码网 > it编程>编程语言>其他编程 > FunASR语音识别快速上手指南

FunASR语音识别快速上手指南

2024年07月28日 其他编程 我要评论
FunASR以其全面的功能、易用性和持续的更新,为语音识别的研究和应用提供了有力支持。无论是进行学术研究,还是在实际项目中应用,FunASR都是一个值得深入研究和使用的工具包。如需获取更多帮助或交流,欢迎访问FunASR的GitHub页面或加入钉钉群、微信群。

funasr的核心优势

强大的功能集

funasr集成了多种功能,包括但不限于:

  • 语音识别(asr):支持多种预训练模型的推理和微调,提供高精度和高效能。
  • 语音端点检测(vad):自动检测语音片段的开始和结束,提高识别效率。
  • 标点恢复:为识别结果添加标点符号,提升可读性。
  • 语言模型:优化识别结果,适应不同语境。
  • 说话人验证与分离:确认说话人身份,分离多说话人语音。
  • 多人对话语音识别:在复杂语音环境中精准识别。

持续的优化与更新

funasr团队持续关注学术研究的最新进展,将研究成果转化为实际应用,不断优化模型性能,如引入qwen-audio、qwen-audio-chat等大规模模型,以及whisper-large-v3模型,支持多语言识别和翻译。

多样化的服务

funasr提供了中文和英文的离线文件转写服务,以及中文实时语音听写服务。这些服务持续进行性能优化,提升vad处理、内存占用和模型性能。

容易部署的软件包

funasr的社区软件包支持windows平台,包含中文和英文离线文件转写服务以及中文实时听写服务,简化了部署流程。

开源模型仓库

funasr开源了大量在工业数据上预训练的模型,如paraformer-zh、paraformer-zh-streaming、paraformer-en、conformer-en等,方便用户在modelscope和huggingface模型仓库中自由使用。

快速入门指南

  1. 安装funasr:

    pip3 install -u funasr
    
  2. 从源代码安装:

    git clone https://github.com/alibaba/funasr.git
    cd funasr
    pip3 install -e .
    
  3. 使用paraformer-zh模型进行非实时语音识别:

    from funasr import automodel
    model = automodel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc", 
                   # spk_model="cam++"
                   )
    res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
             batch_size_s=300, 
             hotword='魔搭')
    print(res)
    
  4. 使用paraformer-zh-streaming模型进行实时语音识别:

    from funasr import automodel
    
    model = automodel(model="paraformer-zh-streaming")
    chunk_size = [0, 10, 5]
    encoder_chunk_look_back = 4
    decoder_chunk_look_back = 1
    
    import soundfile
    import os
    wav_file = os.path.join(model.model_path, "example/asr_example.wav")
    speech, sample_rate = soundfile.read(wav_file)
    chunk_stride = chunk_size[1] * 960 # 600ms
    cache = {}
    total_chunk_num = int(len((speech)-1)/chunk_stride+1)
    for i in range(total_chunk_num):
        speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
        is_final = i == total_chunk_num - 1
        res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size,encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
        print(res)
    
    

结语

funasr以其全面的功能、易用性和持续的更新,为语音识别的研究和应用提供了有力支持。无论是进行学术研究,还是在实际项目中应用,funasr都是一个值得深入研究和使用的工具包。如需获取更多帮助或交流,欢迎访问funasr的github页面或加入钉钉群、微信群。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com