使用C#实现文本转语音(TTS)及多音频合并_Asp.net

一、文字转语音核心实现（system.speech）

using system.speech.synthesis;
using system.speech.audioformat;
public class voicesynthesizer
{
    private readonly speechsynthesizer _synthesizer;
    private readonly speechaudioformatinfo _audioformat;
    public voicesynthesizer()
    {
        _synthesizer = new speechsynthesizer();
        _synthesizer.setoutputtonull(); // 禁用默认输出
        _audioformat = new speechaudioformatinfo(
            16000, // 采样率
            audiobitspersample.sixteen,
            audiochannel.mono);
    }
    /// <summary>
    /// 生成语音文件
    /// </summary>
    public string generatespeech(string text, string outputpath)
    {
        using var stream = new memorystream();
        _synthesizer.setoutputtowavestream(stream);
        // 设置语音参数
        _synthesizer.rate = 0;      // 语速（-10到10）
        _synthesizer.volume = 100;  // 音量（0-100）
        _synthesizer.selectvoicebyhints(voicegender.female); // 选择语音
        _synthesizer.speak(text);
        _synthesizer.setoutputtonull();
        file.writeallbytes(outputpath, stream.toarray());
        return outputpath;
    }
}

二、多音频合并实现（naudio库）

using naudio.wave;

public class audiomerger
{
    /// <summary>
    /// 合并多个wav文件
    /// </summary>
    public void mergeaudiofiles(list<string> inputfiles, string outputfile)
    {
        using var output = new wavefilewriter(outputfile, new waveformat(16000, 1));
        
        foreach (var file in inputfiles)
        {
            using var input = new wavefilereader(file);
            input.copyto(output);
        }
    }

    /// <summary>
    /// 带淡入淡出的音频合并
    /// </summary>
    public void fademerge(list<string> files, string output, int fadeinms = 500, int fadeoutms = 500)
    {
        var mixer = new mixingsampleprovider(new[] { getaudioprovider(files[0]) });
        
        for (int i = 1; i < files.count; i++)
        {
            mixer.add(input);
        }

        // 添加淡入淡出效果
        mixer = mixer.appendfadein(fadeinms).appendfadeout(fadeoutms);
        
        wavefilewriter.createwavefile(output, mixer);
    }

    private isampleprovider getaudioprovider(string path)
    {
        var reader = new audiofilereader(path);
        return reader.tosampleprovider();
    }
}

三、完整工作流程示例

public class ttsworkflow
{
    private readonly voicesynthesizer _tts;
    private readonly audiomerger _merger;

    public ttsworkflow()
    {
        _tts = new voicesynthesizer();
        _merger = new audiomerger();
    }

    public void processbatch(list<string> texts, string outputdir)
    {
        var tempfiles = new list<string>();

        try
        {
            // 分段生成语音
            foreach (var text in texts)
            {
                var tempfile = path.combine(outputdir, $"temp_{guid.newguid()}.wav");
                _tts.generatespeech(text, tempfile);
                tempfiles.add(tempfile);
            }

            // 合并音频
            _merger.mergeaudiofiles(tempfiles, path.combine(outputdir, "output.wav"));
        }
        finally
        {
            // 清理临时文件
            foreach (var file in tempfiles)
            {
                file.delete(file);
            }
        }
    }
}

四、关键功能扩展

1. 语音参数配置

// 设置语音属性
public void configurevoice(voicegender gender, voiceage age, int rate = 0, int volume = 100)
{
    _synthesizer.selectvoicebyhints(gender, age);
    _synthesizer.rate = rate;
    _synthesizer.volume = volume;
}

2. 异步处理优化

public async task<string> generatespeechasync(string text, string outputpath)
{
    return await task.run(() => generatespeech(text, outputpath));
}

3. ssml标记支持

public string generatessmlspeech(string ssml)
{
    var promptbuilder = new promptbuilder();
    promptbuilder.loadssml(ssml);
    using var stream = new memorystream();
    _synthesizer.setoutputtowavestream(stream);
    _synthesizer.speak(promptbuilder);
    return file.readallbytes(stream.toarray()).tobase64();
}

五、性能优化

1.语音缓存机制

private static readonly dictionary<string, byte[]> _speechcache = new();

public string getcachedspeech(string text)
{
    if (!_speechcache.trygetvalue(text, out var data))
    {
        data = generatespeech(text, path.gettempfilename());
        _speechcache[text] = data;
    }
    return convert.tobase64string(data);
}

2.批量处理优化

public void batchprocess(list<textsegment> segments)
{
    parallel.foreach(segments, segment => 
    {
        var tempfile = _tts.generatespeech(segment.text, path.gettempfilename());
        lock (_merger)
        {
            _merger.appendtooutput(tempfile);
        }
    });
}

六、异常处理与日志

public class ttsexceptionhandler
{
    public void handleexception(exception ex)
    {
        if (ex is invalidoperationexception)
        {
            log($"语音引擎未初始化: {ex.innerexception?.message}");
            initializeengine();
        }
        else if (ex is ioexception)
        {
            log($"文件写入失败: {ex.message}");
            retryoperation(() => file.writealltext(outputpath, content));
        }
        else
        {
            log($"未知错误: {ex.stacktrace}");
        }
    }

    private void log(string message)
    {
        file.appendalltext("error.log", $"{datetime.now}: {message}\n");
    }
}

七、部署与依赖管理

1.nuget依赖

<packagereference include="system.speech" version="6.0.0" />
<packagereference include="naudio" version="2.1.0" />

2.运行环境要求

windows 10/11（需安装语音引擎）
.net 6.0或更高版本
至少2gb可用内存（处理长文本时）

参考代码 c# tts语音朗读并合成语音(文字转语音) www.youwenfan.com/contentcsp/116289.html

八、应用场景示例

1.有声读物生成

var texts = file.readalllines("book.txt")
                .select(line => line.trim())
                .where(line => !string.isnullorempty(line))
                .tolist();

var processor = new ttsworkflow();
processor.processbatch(texts, "audiobook_output");

2.实时语音播报

var synthesizer = new voicesynthesizer();
synthesizer.setoutputtodefaultaudiodevice();
synthesizer.speakasync("当前温度：25℃");

九、高级功能实现

1.情感语音合成

public void setemotion(voiceemotion emotion)
{
    var prompt = new promptbuilder();
    prompt.appendssmlmarkup($"<prosody rate='{emotion.rate}' pitch='{emotion.pitch}'>");
    prompt.appendtext("需要强调的文本");
    prompt.appendssmlmarkup("</prosody>");
    _synthesizer.speak(prompt);
}

public enum voiceemotion
{
    neutral,
    happy,
    angry,
    sad
}

2.多语言支持

public void switchlanguage(string culturecode)
{
    var voices = _synthesizer.getinstalledvoices();
    var targetvoice = voices.firstordefault(v => 
        v.voiceinfo.culture.name.equals(culturecode, stringcomparison.ordinalignorecase));
    
    if (targetvoice != null)
    {
        _synthesizer.selectvoice(targetvoice.voiceinfo.name);
    }
}