当前位置: 代码网 > 科技>人工智能 > Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

2024年06月07日 人工智能 我要评论
Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。

6 月 6 日消息,stability ai 立足 stable diffusion 文生图模型,进一步向音频领域拓展,推出了 stable audio open,可以基于用户输入的提示词,生成高质量音频样本。

stable audio open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(dit),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。

stable audio open 目前已经开源,代码网附上相关链接,感兴趣的用户可以在 huggingface 上试用。据说它使用了来自 freesound 和 free music archive 等音乐库的 486000 多种采样进行训练。

stability ai 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。

stable audio open 和 stable audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com