在python离线环境下实现文字转音频(mp3或wav),有以下几种开源方案:
1. pyttsx3(推荐)
特点:
- 完全离线,无需网络连接
- 跨平台(windows/linux/macos)
- 支持调整语速、音量、语音类型(男/女声)
- 默认输出
.wav
格式
安装:
pip install pyttsx3
示例代码:
import pyttsx3 engine = pyttsx3.init() engine.setproperty('rate', 150) # 语速 engine.setproperty('volume', 0.8) # 音量 text = "这是离线文字转语音示例。" engine.save_to_file(text, "output.wav") # 保存为wav engine.runandwait()
适用场景:
- 本地语音播报
- 生成离线语音文件
- 需要自定义语音参数的场景
2. espeak(linux/unix 系统)
特点:
- 开源tts引擎,支持多语言
- 需通过
subprocess
调用命令行工具 - 输出
.wav
格式
安装:
sudo apt-get install espeak # ubuntu/debian
示例代码:
import subprocess text = "this is an example." subprocess.run(["espeak", "-w", "output.wav", text])
适用场景:
- linux环境下轻量级tts
- 需要极简依赖的场景
3. festival(linux/unix 系统)
特点:
- 支持复杂语音合成
- 需通过命令行调用
- 输出
.wav
格式
安装:
sudo apt-get install festival # ubuntu/debian
示例代码:
import subprocess text = "this is a festival example." subprocess.run(["echo", text, "|", "festival", "--tts", ">", "output.wav"], shell=true)
适用场景:
- 需要更自然语音合成的场景
- 学术研究或复杂语音处理
4. chattts(高质量本地tts)
特点:
- 支持中文语音合成
- 需要下载模型文件(~1gb)
- 输出
.wav
格式
安装:
git clone https://github.com/pzc163/chattts-ui cd chattts-ui pip install -r requirements.txt
示例代码:
from chattts import chat chat = chat() chat.load_models() text = "你好,这是chattts示例。" chat.synthesize(text, output_file="output.wav")
适用场景:
- 需要高质量中文语音合成的场景
- 本地化语音助手开发
5. edge-tts(需联网下载模型,但可离线使用)
特点:
- 基于微软edge的语音合成技术
- 首次使用需下载语音模型(后续可离线)
- 支持
.mp3
格式
安装:
pip install edge-tts
示例代码:
import edge_tts voice = edge_tts.communicate(text="hello, world!", voice="en-us-arianeural") voice.save("output.mp3")
适用场景:
- 需要多语言支持的场景
- 对语音质量要求较高的应用
总结对比
方案 | 离线支持 | 输出格式 | 语言支持 | 适用场景 |
---|---|---|---|---|
pyttsx3 | ✅ | wav | 多语言 | 通用离线tts |
espeak | ✅ | wav | 多语言 | linux轻量级tts |
festival | ✅ | wav | 多语言 | 学术研究/复杂语音合成 |
chattts | ✅ | wav | 中文优先 | 高质量中文语音 |
edge-tts | ⚠️(需首次下载) | mp3 | 100+语言 | 多语言高质量语音 |
推荐选择:
- 普通需求:
pyttsx3
(简单易用) - 中文需求:
chattts
(高质量) - linux环境:
espeak
或festival
- 多语言需求:
edge-tts
(需首次联网)
以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。
发表评论