当前位置: 代码网 > 科技>人工智能 > 智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

2024年07月13日 人工智能 我要评论
智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

7 月 12 日消息,智谱 ai 宣布,训练了一种新的视频理解模型 cogvlm2-video,并将其开源。

据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。

▲ 官方效果演示

智谱 ai 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 cogvlm2-video 模型。

智谱 ai 表示,cogvlm2-video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

代码网附相关链接:

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com