上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格_智能机器人

6 月 20 日消息，上海人工智能实验室 19 日公布了首个 ai 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 opencompass 选取 6 个开源模型及 gpt-4o 进行高考“语数外”全卷能力测试。

评测采用全国新课标 i 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

该机构表示，qwen2-72b、gpt-4o 及书生・浦语 2.0 文曲星（internlm2-20b-wqx）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

具体来看，internlm2-20b-wqx 取得了数学单科的最高分，超越包括 gpt-4o 在内的所有模型。

代码网注：此次参与“大模型高考”评测的产品包含 gpt-4o 及其他 6 个模型。为公平起见，此次评测没有纳入商用闭源模型。

mixtral 8x22b：法国 ai 创业公司 mistral 于 2024 年 4 月 17 日开源的对话模型。
yi-1.5-34b：零一万物公司于 2024 年 5 月 12 日开源的 yi-1.5 系列最大的模型。
glm-4-9b：智谱 ai 于 2024 年 6 月 4 日推出的最新一代预训练模型 glm-4 系列的开源版本。
internlm2-20b-wqx：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
qwen2-57b：阿里巴巴于 2024 年 6 月 6 日开源的 qwen2 系列 moe 对话模型。
qwen2-72b：阿里巴巴于 2024 年 6 月 6 日开源的 72b 稠密模型。

语数外三科加起来的满分为 420 分，此次高考测试结果显示，阿里通义千问 2-72b 排名第一，为 303 分，openai 的 gpt-4o 排名第二，得分 296 分，上海人工智能实验室的书生・浦语 2.0 排名第三，三个大模型的得分率均超过 70%。来自法国大模型初创公司的 mistral 排名末尾，仅拿下 185 分。

上海人工智能实验室发布首个 ai 高考评测结果：语数英总分最高 303 分，数学全部不及格

数学是所有大模型的短板，平均得分率仅有 36%，参与测试的大模型无一及格。

上海人工智能实验室发布首个 ai 高考评测结果：语数英总分最高 303 分，数学全部不及格

此外，阅卷教师也对大模型表现进行了整体分析，为模型能力提升策略提供参考。

语文

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

一天最高产出 7000 篇谣言扰乱公共秩序，江西一 MCN 机构用 AI 造谣被曝光

据央视昨日报道，今年1月，有网络平台出现一条“西安发生爆炸”的消息，其时间地点等关键信息和配图齐备，极具迷惑性。经警方调查，消息发布账号归属于一家江西的MCN机... [阅读全文]

Adobe 上调 2024 财年收入预期，AI 设计软件需求强劲

Adobe 2024 财年第二季度营收为 53.1 亿美元（当前约 385.39 亿元人民币），超出预期的 52.9 亿美元。该公司公布的数字媒体收入为 39... [阅读全文]

摩尔线程：与师者 AI 完成 70 亿参数教育大模型训练测试

摩尔线程表示，依托摩尔线程夸娥（KUAE）千卡智算集群，师者 AI 完成了其 70 亿参数大模型的高强度训练测试。整个训练过程用时一周，训练效率达到预期。 [阅读全文]

不同 AI 大模型匿名打 PK：字节跳动扣子平台上线“模型广场”

字节跳动“扣子Coze”公众号今日宣布，扣子平台上线“模型广场”功能，提供了一个大模型匿名打PK的“擂台”。 [阅读全文]

小米室外摄像机太阳能板国内发布：5W 功率、IP66 防尘防水，售价 199 元

今年 5 月，小米在海外发布一款小型太阳能电池板，可用于户外摄像头。现在，这款新品在小米官方商城上市，售价 199 元。 [阅读全文]

马斯克资源分配“偏爱”xAI，遭特斯拉投资者起诉

据Arstechnica报道，当地时间14日，一群特斯拉投资者起诉了马斯克、特斯拉公司及董事会成员，指控马斯克将人力、硬件等资源从特斯拉转移到了他的人工智能初创... [阅读全文]


验证码：

验证码：

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

2024年06月20日 • 智能机器人 •我要评论

语文

数学

英语

相关文章:

发表评论