斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十_人工智能

6 月 22 日消息，斯坦福大学基础模型研究中心（crfm）6 月 11 日发布了大规模多任务语言理解能力评估（massive multitask language understanding on helm）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 qwen2 instruct（72b）和零一万物的 yi large（preview）。

据悉大规模多任务语言理解能力评估（mmlu on helm）采用了 dan hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。代码网附排名如下：

斯坦福大模型评测榜 claude 3 排名第一，阿里 qwen2、零一万物 yi large 国产模型进入前十

▲ 图源斯坦福大学基础模型研究中心官网

1、claude 3 opus（20240229）： anthropic（美国，亚马逊投资）
2、gpt-4o（2024-05-13）：openai（美国）
3、gemini 1.5 pro：谷歌（美国）
4、gpt-4（0613）：openai（美国）
5、qwen2 instruct（72b）：阿里巴巴（中国）
6、gpt-4 turbo（2024-04-09）：openai（美国）
7、gemini 1.5 pro（0409 preview）：谷歌（美国）
8、gpt-4 turbo（1106 preview）：openai（美国）
9、llama 3（70b）：meta（美国）
10、yi large（preview）：零一万物（中国）

qwen2 是由阿里巴巴开发的一款开源大语言模型，发布于今年 6 月 6 日。qwen2 系列包括 qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b 和 qwen2-72b 在内的五个不同规模的预训练及指令微调模型；支持除英语和中文外的额外 27 种语言的数据训练；qwen2-7b-instruct 和 qwen2-72b-instruct 支持长 128k 个 token 的上下文。

yi large 是由零一万物公司开发的一款闭源大模型，yi 模型系列基于 6b 和 34b 预训练语言模型，然后扩展到聊天模型、200k 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 gpt-4 和 claude 3 opus 等领先模型”。

AMD 发布 ROCm 6.1.3，支持 RX 7900 GRE 显卡及 TensorFlow

AMD 正式推出了最新的 ROCm（Radeon Open Compute）平台，宣布支持多 GPU 集群，例如双 RX 7900XTX 或 W7900 显卡。 [阅读全文]

北京市首例“AI 换脸”软件侵权案宣判：国风博主短视频被“换脸”后制作成付费模板

据北京互联网法院消息，6 月 20 日，北京互联网法院一审开庭宣判了两起北京市首例“AI 换脸”软件侵权案件，认定使用他人视频“换脸”后制作模板再提供“换脸”服... [阅读全文]

OpenAI 竞争对手 Anthropic 发布其最强 AI 大模型 Claude 3.5

Anthropic 由 OpenAI 前研发高管创立，赢得了谷歌、Salesforce 和亚马逊的支持。在过去的一年里，Anthropic 完成了五笔融资，总额... [阅读全文]

有望不再建议往披萨里加胶水？数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响

根据搜索引擎优化平台SERanking当地时间20日公布的数据显示，Reddit已经不再是谷歌“AI摘要”功能信息来源的前十名。 [阅读全文]

“力压 GPT-4o 和 Gemini 1.5 Pro”，Anthropic 推出 Claude 3.5 Sonnet AI 模型

Anthropic 今天（6 月 21 日）推出了 Claude 3.5 Sonnet，这是 Claude 3.5 系列的首个模型版本，在各项评估中优于 OpenAI 的 GPT-…

2024年06月21日 • 人工智能

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

卡尔斯鲁厄理工学院体育与运动科学研究所Darko Jekauc教授表示，“我们的模型能够识别情感状态，准确率高达68.9%，与人类观察者和早期自动化方法相比，甚... [阅读全文]


验证码：

验证码：

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

2024年06月23日 • 人工智能 •我要评论

相关文章:

“力压 GPT-4o 和 Gemini 1.5 Pro”，Anthropic 推出 Claude 3.5 Sonnet AI 模型

发表评论