当前位置: 代码网 > 科技>人工智能>机器学习 > “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

2024年06月04日 机器学习 我要评论
本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。

6 月 3 日消息,昆仑万维今日宣布开源 2 千亿稀疏大模型 skywork-moe,基于之前昆仑万维开源的 skywork-13b 模型中间 checkpoint 扩展而来,号称是首个完整将 moe upcycling 技术应用并落地的开源千亿 moe 大模型,也是首个支持用单台 rtx 4090 服务器(8 张 rtx 4090 显卡)推理的开源千亿 moe 大模型

据介绍,本次开源的 skywork-moe 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(skywork-moe-medium),模型的总参数量为 146b,激活参数量 22b,共有 16 个 expert,每个 expert 大小为 13b,每次激活其中的 2 个 expert。

天工 3.0 还训练了 75b (skywork-moe-small) 和 400b (skywork-moe-large)两档 moe 模型,并不在此次开源之列。

根据官方测试,在相同的激活参数量 20b(推理计算量)下,skywork-moe 能力接近 70b 的 dense 模型,使得模型的推理成本有近 3 倍的下降。同时 skywork-moe 的总参数大小比 deepseekv2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。

图片

skywork-moe 的模型权重、技术报告完全开源,免费商用,无需申请,代码网附链接如下:

  •  模型权重下载:

https://huggingface.co/skywork/skywork-moe-base

https://huggingface.co/skywork/skywork-moe-base-fp8

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com