当前位置: 代码网 > 科技>人工智能 > 斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

2024年06月23日 人工智能 我要评论
斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商。

6 月 22 日消息,斯坦福大学基础模型研究中心(crfm)6 月 11 日发布了大规模多任务语言理解能力评估(massive multitask language understanding on helm)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 qwen2 instruct(72b)和零一万物的 yi large(preview)。

据悉大规模多任务语言理解能力评估(mmlu on helm)采用了 dan hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。代码网附排名如下:

▲ 图源斯坦福大学基础模型研究中心官网
  • 1、claude 3 opus(20240229): anthropic(美国,亚马逊投资)

  • 2、gpt-4o(2024-05-13):openai(美国)

  • 3、gemini 1.5 pro:谷歌(美国)

  • 4、gpt-4(0613):openai(美国)

  • 5、qwen2 instruct(72b):阿里巴巴(中国)

  • 6、gpt-4 turbo(2024-04-09):openai(美国)

  • 7、gemini 1.5 pro(0409 preview):谷歌(美国)

  • 8、gpt-4 turbo(1106 preview):openai(美国)

  • 9、llama 3(70b):meta(美国)

  • 10、yi large(preview):零一万物(中国)

qwen2 是由阿里巴巴开发的一款开源大语言模型,发布于今年 6 月 6 日。qwen2 系列包括 qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b 和 qwen2-72b 在内的五个不同规模的预训练及指令微调模型;支持除英语和中文外的额外 27 种语言的数据训练;qwen2-7b-instruct 和 qwen2-72b-instruct 支持长 128k 个 token 的上下文。

yi large 是由零一万物公司开发的一款闭源大模型,yi 模型系列基于 6b 和 34b 预训练语言模型,然后扩展到聊天模型、200k 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 gpt-4 和 claude 3 opus 等领先模型”。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com