中文语音识别实战（ASR）_Windows

写在前面的话

本博客主要介绍了

1. 语音识别基础知识

2. 中文语音识别数据集

3. 语音识别常用模型方法

4. 自己训练一个中文语音识别模型

注意：代码中所涉及的模型及数据集，均可从huggingface下载得到，代码中的路劲，需要根据自身实际情况稍做调整。

语音识别基础

音视频开发基础入门｜声音的采集与量化、音频数字信号质量、音频码率_量化后的声音信号-csdn博客

https://huggingface.co/learn/audio-course/chapter1/audio_data

数据集

common_voice

包含大陆，香港，台湾等地的语音数据。

https://huggingface.co/datasets/fsicoli/common_voice_17_0

其它

webhub123

模型

wav2vec

https://huggingface.co/facebook/wav2vec2-base

whipser

whisper是一种用于自动语音识别（asr）和语音翻译的预训练模型。whisper模型经过680k小时的标记数据训练，显示出强大的能力，可以在不需要微调的情况下推广到许多数据集和领域。

https://huggingface.co/docs/transformers/model_doc/whisper#transformers.whisperprocessor

win7输入法ch怎么去掉? win7系统去除输入法前的CH图标的技巧

不知道大家有没有发现，win7系统桌面右下角，在切换输入法时有一个图标，我们输入中文时要先切换到ch然后才能切换到自己要用的中文输入法，比较麻烦。其实en是属于英文美式键盘，便于输…

2024年07月31日 • 操作系统

人工智能|深度学习——多模态条件机制 Cross Attention 原理及实现

虽然之前写过 Attention 的文章，但现在回头看之前写的一些文章，感觉都好啰嗦，正好下一篇要写的 Stable Diffusion 中有 cross-attention，索性…

2024年07月31日 • 操作系统

【2024保姆级图文教程】深度学习GPU环境搭建：Win11+CUDA 11.7+Pytorch1.12.1+Anaconda 深度学习环境配置

【2024保姆级图文教程】深度学习GPU环境搭建：Win11+CUDA 11.7+Pytorch1.12.1+Anaconda 深度学习环境配置…

2024年07月31日 • 操作系统

【opencv】计算机视觉基础知识

本文将非常细致的讲解相关与计算机视觉OpenCV的相关知识即操作，非常的简单易懂。本文主要讲解相关与计算机视觉的相关入门内容，关于图像处理的相关简单操作，包括读入图像、显示图像及图…

2024年07月31日 • 操作系统

【 ICCV代码复现】Swin Transformer图像分类实战教程 (训练自己的数据集）

官方源码训练，方便修改模型。文章结构包括一、环境配置包括官方环境配置、数据集结构二、修改配置等文件三、训练 1.Train 2.Evaluation 四、... [阅读全文]

Win1 KB5040546新功能曝光:尝试使用新的小工具UI和自定义Feed

微软一直在不断调整 windows 11 insider 频道中的小工具面板。我们之前曾报道过小工具栏布局的一些有用变化。例如，当任务栏向左对齐时，微软将小工具栏移到了一个新位置。…

2024年07月29日 • 操作系统


验证码：

验证码：

中文语音识别实战（ASR）

2024年07月31日 • Windows •我要评论

写在前面的话

语音识别基础

数据集

common_voice

其它

模型

wav2vec

whipser

相关文章:

win7输入法ch怎么去掉? win7系统去除输入法前的CH图标的技巧

人工智能|深度学习——多模态条件机制 Cross Attention 原理及实现

【2024保姆级图文教程】深度学习GPU环境搭建：Win11+CUDA 11.7+Pytorch1.12.1+Anaconda 深度学习环境配置

【opencv】计算机视觉基础知识

Win1 KB5040546新功能曝光:尝试使用新的小工具UI和自定义Feed

发表评论