当前位置: 代码网 > 科技>人工智能>动态 > 阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

2024年06月07日 动态 我要评论
通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。

6 月 7 日消息,通义千问(qwen)今天宣布经过数月的努力,qwen 系列模型从 qwen1.5 到 qwen2 的重大升级,并已在 hugging face 和 modelscope 上同步开源。

代码网附上 qwen 2.0 主要内容如下:

  • 5 个尺寸的预训练和指令微调模型,包括 qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b 以及 qwen2-72b

  • 在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;

  • 多个评测基准上的领先表现;

  • 代码和数学能力显著提升;

  • 增大了上下文长度支持,最高达到 128k tokens(qwen2-72b-instruct)。

模型基础信息

qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b 和 qwen2-72b。

模型qwen2-0.5bqwen2-1.5bqwen2-7bqwen2-57b-a14bqwen2-72b
参数量0.49b1.54b7.07b57.41b72.71b
非 embedding 参数量0.35b1.31b5.98b56.32b70.21b
gqatruetruetruetruetrue
tie embeddingtruetruefalsefalsefalse
上下文长度32k32k128k64k128k

在 qwen1.5 系列中,只有 32b 和 110b 的模型使用了 gqa。这一次,所有尺寸的模型都使用了 gqa,以便让大家体验到 gqa 带来的推理加速和显存占用降低的优势。

模型评测

相比 qwen1.5,qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 qwen2-72b 进行了全方位的评测。

在针对预训练语言模型的评估中,对比当前最优的开源模型,qwen2-72b 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 llama-3-70b 以及 qwen1.5 最大的模型 qwen1.5-110b。

代码网附上参考地址

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com