FunASR语音识别快速上手指南_其他编程

funasr的核心优势

强大的功能集

funasr集成了多种功能，包括但不限于：

语音识别（asr）：支持多种预训练模型的推理和微调，提供高精度和高效能。
语音端点检测（vad）：自动检测语音片段的开始和结束，提高识别效率。
标点恢复：为识别结果添加标点符号，提升可读性。
语言模型：优化识别结果，适应不同语境。
说话人验证与分离：确认说话人身份，分离多说话人语音。
多人对话语音识别：在复杂语音环境中精准识别。

持续的优化与更新

funasr团队持续关注学术研究的最新进展，将研究成果转化为实际应用，不断优化模型性能，如引入qwen-audio、qwen-audio-chat等大规模模型，以及whisper-large-v3模型，支持多语言识别和翻译。

多样化的服务

funasr提供了中文和英文的离线文件转写服务，以及中文实时语音听写服务。这些服务持续进行性能优化，提升vad处理、内存占用和模型性能。

容易部署的软件包

funasr的社区软件包支持windows平台，包含中文和英文离线文件转写服务以及中文实时听写服务，简化了部署流程。

开源模型仓库

funasr开源了大量在工业数据上预训练的模型，如paraformer-zh、paraformer-zh-streaming、paraformer-en、conformer-en等，方便用户在modelscope和huggingface模型仓库中自由使用。

快速入门指南

安装funasr：
```
pip3 install -u funasr
```

从源代码安装：

git clone https://github.com/alibaba/funasr.git
cd funasr
pip3 install -e .

使用paraformer-zh模型进行非实时语音识别：

from funasr import automodel
model = automodel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc", 
               # spk_model="cam++"
               )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
         batch_size_s=300, 
         hotword='魔搭')
print(res)

使用paraformer-zh-streaming模型进行实时语音识别：

from funasr import automodel

model = automodel(model="paraformer-zh-streaming")
chunk_size = [0, 10, 5]
encoder_chunk_look_back = 4
decoder_chunk_look_back = 1

import soundfile
import os
wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600ms
cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size,encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)