当前位置: 代码网 > 科技>人工智能>动态 > 谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音

谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音

2024年06月19日 动态 我要评论
据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效。

6 月 18 日消息,据谷歌 deepmind 新闻稿,deepmind 近日公布了一项利用 ai 为无声视频生成背景音乐的“video-to-audio”技术。

代码网获悉,当前 deepmind 这款 ai 模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效

据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条“在黑暗中行走”的无声视频,再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型就能生成恐怖风格的背景音效。

deepmind 同时表示,该“video-to-audio”模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频“正向性”或“反向性”,从而令生成的声音更贴近某些特定场景

展望未来,deepmind 表示研究人员正进一步优化这款“video-to-audio”模型,计划未来能够让模型直接根据视频内容,无须通过提示词即可生成视频背景音,同时还将改善视频中人物对白的口型同步能力。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com