当前位置: 代码网 > 快讯>互联网前沿 > 谷歌DeepMind推出Mixture of Depths

谷歌DeepMind推出Mixture of Depths

2024年05月16日 互联网前沿 我要评论
日前有消息显示,谷歌deepmind方面发布的mixture-of-depths(mod),改变了以往transformer架构的计算模式。据了解,通过动态分配大模型中的flops(运算次数或计算资源

日前有消息显示,谷歌deepmind方面发布的mixture-of-depths(mod),改变了以往transformer架构的计算模式。

据了解,通过动态分配大模型中的flops(运算次数或计算资源),优化不同层次模型深度中的分配,限制给定层的自注意力和mlp计算的token数量,mod可跳过一些不必要计算,迫使神经网络学会主要关注真正重要的信息, 实现只给需要准确预测的token分配更多计算资源,从而显著提高训练效率和推理速度。

例如,虽然预测下一个句子的内容很难,但预测句子结束的标点符号很简单,如果给两者分配同样的计算资源,那么后者明显会浪费资源、而mod则可避免这种情况。

据谷歌方面发布的相关测试结果显示,在等效计算量和训练时间上,mod每次向前传播所需的计算量更小,而且后训练采样过程中步进速度提高50%。

据了解,谷歌研究团队还探讨了mod和moe结合的可能性mode,而且结果表明而这一结合能提供更好的性能和更快的推理速度。

此外值得一提的是,为解决ai幻觉问题,不久前谷歌deepmind还与斯坦福大学联合开了一款ai事实核查工具“搜索增强事实评估器”(search-augmented factuality evaluator,safe)。

据了解,safe可通过四个步骤对ai聊天机器人生成的回复进行分析、处理和评估,以验证其准确性和真实性。具体而言,safe首先会将回复分割成多个单个待核查内容、对上述内容进行修正,然后再与谷歌搜索结果进行比较。随后,safe还会检查各个事实与原始问题的相关性。

为评估safe性能,谷歌方面的研究人员还创建了包含约16000个事实的数据集longfact,并在包括claude、gemini、gpt、palm-2在内的13个大语言模型上测试了这一工具。结果显示,在对100个有争议事实进行的重点分析中,safe的判定在进一步审查下正确率达到76% 。与此同时,safe还具备显著的经济性优势,即其成本比人工注释便宜20多倍。

稿源:新浪网

谷歌deepmind推出mixture of depths

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com