智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题_人工智能

7 月 12 日消息，智谱 ai 宣布，训练了一种新的视频理解模型 cogvlm2-video，并将其开源。

据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。

智谱 ai 开源视频理解模型 cogvlm2-video，可回答时间相关问题

▲ 官方效果演示

智谱 ai 提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 cogvlm2-video 模型。

智谱 ai 表示，cogvlm2-video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。

智谱 ai 开源视频理解模型 cogvlm2-video，可回答时间相关问题

代码网附相关链接：

“东风”号称全球首个能在泰文、中文、英文三种语言环境下高效工作的AI大语言模型，将商汤的基模型和算力优势与DTGO的泰国语言文化优势相结合，提供本地化的生成式A... [阅读全文]

AI 剧本杀，开本了！最近，两位开发者在黑客马拉松期间创作了一款 AI 游戏「山庄谋杀案」，我们需要和五位 AI 嫌疑人对话，揪出真正的凶手。没想到，小编一番试玩后，结局出乎意料……

2024年07月13日 • 人工智能

这些车型需配备支持语音指令的 i-Cockpit 智能座舱，升级后可用语音呼出 ChatGPT。 [阅读全文]

谷歌 DeepMind 首席执行官戴密斯・哈萨比斯（Demis Hassabis）表示，当前人工智能（AI）的 IQ 智力还没有达到猫的水平。 [阅读全文]

沟部拓郎表示，“《幻兽帕鲁》经常被指责（在开发中）使用了生成式AI，但实际上我们并没有使用它们，上千幅草图都是由艺术家绘制而成的！” [阅读全文]

当地时间周二开始，华尔街开始纷纷看好软银公司支持的基因检测公司Tempus AI，该公司拥有AI驱动的临床和分子数据库，被认为可带来更强大的诊断和测试工具。 [阅读全文]


验证码：

验证码：

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题