阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens_动态

6 月 7 日消息，通义千问（qwen）今天宣布经过数月的努力，qwen 系列模型从 qwen1.5 到 qwen2 的重大升级，并已在 hugging face 和 modelscope 上同步开源。

阿里云通义千问系列 ai 开源模型升至 qwen2：5 个尺寸、上下文长度最高支持 128k tokens

代码网附上 qwen 2.0 主要内容如下：

qwen2 系列包含 5 个尺寸的预训练和指令微调模型，其中包括 qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b 和 qwen2-72b。

模型	qwen2-0.5b	qwen2-1.5b	qwen2-7b	qwen2-57b-a14b	qwen2-72b
参数量	0.49b	1.54b	7.07b	57.41b	72.71b
非 embedding 参数量	0.35b	1.31b	5.98b	56.32b	70.21b
gqa	true	true	true	true	true
tie embedding	true	true	false	false	false
上下文长度	32k	32k	128k	64k	128k

在 qwen1.5 系列中，只有 32b 和 110b 的模型使用了 gqa。这一次，所有尺寸的模型都使用了 gqa，以便让大家体验到 gqa 带来的推理加速和显存占用降低的优势。

相比 qwen1.5，qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 qwen2-72b 进行了全方位的评测。

在针对预训练语言模型的评估中，对比当前最优的开源模型，qwen2-72b 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如 llama-3-70b 以及 qwen1.5 最大的模型 qwen1.5-110b。

阿里云通义千问系列 ai 开源模型升至 qwen2：5 个尺寸、上下文长度最高支持 128k tokens

代码网附上参考地址

为了让顾客收到满意的商品，亚马逊祭出利器 ——“Project PI”（侦探项目）。这项结合生成式 AI 和计算机视觉技术的系统，能够在商品运送给顾客之前，就找... [阅读全文]

根据英国《镜报》报道，全球首届 AI 模特小姐选美大赛 WAICAs 已经于上月拉开帷幕，总奖池达到 1.6 万英镑（IT之家备注：当前约 14.8 万元人民币... [阅读全文]

近日斯坦福大学的 AI 研究团队的 Llama3-V 开源模型被指控抄袭了清华系明星创业公司面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V 2... [阅读全文]

aiBIOS 可借助大语言模型的知识库，向用户解释复杂的 PC 术语，并按用户需求自动调整设置。 [阅读全文]

extdoor 前首席执行官兼 Square 财务总监 Sarah Friar 将加入 OpenAI，担任首席财务官（CFO）。Kevin Weil 加入 Op... [阅读全文]

微软今天发布公告，宣布 Copilot Pro 服务将移除 GPT Builder，意味着订阅用户无法继续创建自己的 Copilot GPT。 [阅读全文]


验证码：

验证码：

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens