当前位置: 代码网 > 服务器>服务器>Linux > Linux 中的机器学习:Whisper——自动语音识别系统

Linux 中的机器学习:Whisper——自动语音识别系统

2024年08月01日 Linux 我要评论
Whisper 还是蛮不错的,从我们的测试来看,转录的准确性非常接近人类水平的稳健性和准确性。Whisper 没有图形界面,也不能录制音频。它只能获取现有的音频文件和输出文本文件,Whisper 已经积累了超过 25000 个 GitHub 星,还是非常受欢迎的。。

whisper 是一种自动语音识别 (asr) 系统,使用从网络收集的 680000 小时多语言和多任务数据进行训练,whisper 由深度学习和神经网络提供支持,是一种基于 pytorch 构建的自然语言处理系统,这是免费的开源软件。

安装whisper

我们用 ubuntu 22.04 lts 测试了 whisper,为避免污染您的系统,我们建议使用 anaconda 或 miniconda 安装 whisper。

使用 wget 下载并安装 anaconda。

$ wget https://repo.anaconda.com/archive/anaconda3-2022.10-linux-x86_64.sh

下载中的截图:

运行shell脚本:

$ bash anaconda3-2022.10-linux-x86_64.sh

接受 anaconda 的许可证,然后通过运行 conda init 来初始化 anaconda3,要使更改生效,请关闭并重新打开当前的 shell。

创建一个 conda 环境,并激活它。

$ conda create --name whisper
$ conda activate whisper

现在我们准备好使用 pip 安装 whisper,pip 是 python 的包管理器。

$ pip install -u openai-whisper

这是运行该命令的输出。

successfully built openai-whisper
installing collected packages: tokenizers, huggingface-hub, transformers, openai-whisper
successfully installed huggingface-hub-0.12.1 openai-whisper-20230124 tokenizers-0.13.2 transformers-4.26.1

运行whisper

whisper 是从命令行运行的,项目中没有花哨的图形用户界面。

该软件带有一系列不同大小的预训练模型,可用于检查 whisper 的缩放属性:

  • tiny.en
  • tiny
  • base.en
  • base
  • small.en
  • small
  • medium.en
  • medium
  • large-v1
  • large-v2
  • large

我们可以使用在 mp3 文件(也支持 flac 和 wav)上使用媒体模型试用该软件,第一次使用模型时,会下载该模型。

如果我们不指定带有标志的语言,–language软件会自动检测使用最多前 30 秒的语言。我们可以告诉软件语言,避免自动检测的开销,一共支持 100 多种语言。

我们想要使用媒体模型转录 audio.mp3 文件,我们会告诉软件这个文件是英语语言。

$ whisper audio.mp3 --model medium --language english

下图显示正在进行的转录。

我们验证此转录正在使用我们的 gpu。

你可以看到我们的 gpu 有 8gb 的vram,请注意,大型模型无法在此 gpu 上运行,因为它需要超过 8gb 的vram。

有大量可用的选项,比如$ whisper --help

总结

whisper 还是蛮不错的,从我们的测试来看,转录的准确性非常接近人类水平的稳健性和准确性。

whisper 没有图形界面,也不能录制音频。它只能获取现有的音频文件和输出文本文件,whisper 已经积累了超过 25000 个 github 星,还是非常受欢迎的。

代码仓库地址:https://github.com/openai/whisper

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com