当前位置: 代码网 > it编程>前端脚本>Python > Python使用whisper实现语音识别(ASR)

Python使用whisper实现语音识别(ASR)

2024年07月31日 Python 我要评论
在一个语音中,我们都会有一些停顿。但是,在识别结果中,这些停顿并没有被完全表示出来。可以看到,它的识别结果还行(因为我的音频是AI合成的,识别会有一定误差),但是输出的是繁体中文,我们需要把他变成简体中文。Whisper是OpenAI的一个强大的语音识别库,支持离线的语音识别。其中,zh.wav可以换成你自己的音频。另外,需要通过choco安装ffmpeg库。完成这些步骤之后,我们就可以使用啦!

目录

whisper的安装

whisper的基本使用

识别结果转简体中文

断句


whisper的安装

whisper是openai的一个强大的语音识别库,支持离线的语音识别。在使用之前,需要先安装它的库:

pip install openai-whisper

使用whisper,还需安装setuptools-rust:

pip install setuptools-rust

但是,whisper安装时,自带的pytorch可能有些bug,因此需要卸载重装:

卸载:

pip uninstall torch

重装:

pip install torch

另外,需要通过choco安装ffmpeg库。先通过管理员权限的powershell安装choco:

set-executionpolicy bypass -scope process -force; [system.net.servicepointmanager]::securityprotocol = [system.net.servicepointmanager]::securityprotocol -bor 3072; 
iex ((new-object system.net.webclient).downloadstring('https://chocolatey.org/install.ps1'))

然后,在管理员权限的powershell安装ffmpeg:

choco install ffmpeg

完成这些步骤之后,我们就可以使用啦!

whisper的基本使用

whisper的基本代码如下:

import whisper

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
print(result['text'])

其中,zh.wav可以换成你自己的音频。我的控制台输出:

我們說,40月2日混淩土不能與引力長相互攪拌不然會因為愛銀斯坦的相對論而引發雜串的食品安全問題這是嚴重的金融危機

可以看到,它的识别结果还行(因为我的音频是ai合成的,识别会有一定误差),但是输出的是繁体中文,我们需要把他变成简体中文。

识别结果转简体中文

可以通过opencc库实现转化,先安装:

pip install opencc

然后修改代码:

import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.opencc("t2s")
res = cc.convert(result['text'])
print(res)

输出:

我们说,40月2日混凌土不能与引力长相互搅拌不然会因为爱银斯坦的相对论而引发杂串的食品安全问题这是严重的金融危机

断句

在一个语音中,我们都会有一些停顿。但是,在识别结果中,这些停顿并没有被完全表示出来。我们可以如此修改代码,实现按断句输出结果:

import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.opencc("t2s")
for i in result['segments']:
    res = cc.convert(i['text'])
    print(f"断句开始于{i['start']}秒,结束于{i['end']}秒,识别结果:{res}")

输出:

断句开始于0.0秒,结束于5.36秒,识别结果:我们说,40月2日混凌土不能与引力长相互搅拌
断句开始于5.36秒,结束于11.14秒,识别结果:不然会因为爱银斯坦的相对论而引发杂串的食品安全问题
断句开始于11.14秒,结束于13.44秒,识别结果:这是严重的金融危机

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com