当前位置:主页 > 产业 > 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2024-06-05 04:48:17来源:新媒体

文章导读
2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,是首个全面将 MoE Up...

  2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,是首个全面将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。

  开源地址:

  Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请:

  • 模型权重下载:

  ? https://huggingface.co/Skywork/Skywork-MoE-base

  ? https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

  • 模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE

  • 模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

  • 模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理) https://github.com/SkyworkAI/vllm

  模型架构:

  本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,融易新媒体消息,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。

  天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。

  模型能力:

  我们基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。

  技术创新:

  为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:

  1. Gating Logits 归一化操作

  我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于遭选中的 top-2 experts,增加 MoE 模型对于 top-2 的置信度:

  2. 自适应的 Aux Loss

  有别于传统的固定系数(固定超参)的 aux loss, 我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,我们希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。

  训练 Infra

  如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU 38% 的训练吞吐,其中 MFU 以 22B 的激活参数计算理论计算量。

  1. Expert Data Parallel

  区别于 Megatron-LM 社区已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)设计,我们提出了一种称之为 Expert Data Parallel 的并行设计方案,这种并行方案可以在 Expert 数量较小时仍能高效的切分模型,对 Expert 引入的 all2all 通信也可以最大程度的优化和掩盖。相较于 EP 对 GPU 数量的限制和 ETP 在千卡集群上的低效, EDP 可以较好的解决大规模分布式训练 MoE 的并行痛点,同时 EDP 的设计简单、鲁棒、易扩展,可以较快的实现和验证。

  一个最简单的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

  2. 非均匀切分流水并行

  由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有 10% 左右的端到端训练吞吐提升。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 领跑母婴童行业15年 孩子王其具体做对了什么?

巨大的人口红利下,母婴童行业曾在过去的二三十年里从萌芽起步,经历多轮周期后,恣意成...

2 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低...

3 吉大正元与华为数存战略合作 共建自主创新数字安全新生态

6月3日,长春吉大正元信息技术股份有限公司(简称:吉大正元 股票代码:003029)与华为技术...

4 5000台丰田bZ3集中交付,荣浩出行携手一汽丰田开启新篇章

?6月3日,荣浩出行与广博丰田共同在广州举办了一场盛大的5000台丰田bZ3集中交付仪式。活动现...

5 福建平安产险:六一公益行 平安助学情

感恩的心,感谢有你,伴我一生,让我有勇气做我自己5月31日下午,泉港区涂岭镇寨后小学的...

6 安庆市市监局食品安全抽检信息通告(2024年第19期)

安庆市市监局组织抽检糖果制品、饮料、调味品、淀粉及淀粉制品、炒货食品及坚果制品、餐...

7 四川省市监局关于食品安全监督抽检情况的通告(2024年第6号)

四川省市监局关于食品安全监督抽检情况的通告 (2024年第6号) 近期,省市监局组织食品安全...

8 关于安徽省蚌埠市固镇县2024年电动自行车产品质量专项监督抽

抽检结果通报!事关电动自行车 关于固镇县2024年电动自行车产品质量专项监督抽查结果公示...

9 科研新突破!津力达可降低糖尿病发生风险41%,助力我国糖尿病

美国当地时间2024年6月3日,由河北省中西医结合医药研究院贾振华教授,中国中医科学院广安...

10 联邦高登2024招商合作峰会倒计时,联袂共赢高定家居财富蓝海

联袂共赢,登峯造极!联邦高登全屋定制2024高级合伙人合作峰会将于6月13日启动,联邦高登销...

1 领跑母婴童行业15年 孩子王其具体做对了什么?

巨大的人口红利下,母婴童行业曾在过去的二三十年里从萌芽起步,经历多轮周期后,恣意成...

2 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低...

3 吉大正元与华为数存战略合作 共建自主创新数字安全新生态

6月3日,长春吉大正元信息技术股份有限公司(简称:吉大正元 股票代码:003029)与华为技术...

4 5000台丰田bZ3集中交付,荣浩出行携手一汽丰田开启新篇章

?6月3日,荣浩出行与广博丰田共同在广州举办了一场盛大的5000台丰田bZ3集中交付仪式。活动现...

5 福建平安产险:六一公益行 平安助学情

感恩的心,感谢有你,伴我一生,让我有勇气做我自己5月31日下午,泉港区涂岭镇寨后小学的...

6 安庆市市监局食品安全抽检信息通告(2024年第19期)

安庆市市监局组织抽检糖果制品、饮料、调味品、淀粉及淀粉制品、炒货食品及坚果制品、餐...

7 四川省市监局关于食品安全监督抽检情况的通告(2024年第6号)

四川省市监局关于食品安全监督抽检情况的通告 (2024年第6号) 近期,省市监局组织食品安全...

8 关于安徽省蚌埠市固镇县2024年电动自行车产品质量专项监督抽

抽检结果通报!事关电动自行车 关于固镇县2024年电动自行车产品质量专项监督抽查结果公示...

9 科研新突破!津力达可降低糖尿病发生风险41%,助力我国糖尿病

美国当地时间2024年6月3日,由河北省中西医结合医药研究院贾振华教授,中国中医科学院广安...

10 联邦高登2024招商合作峰会倒计时,联袂共赢高定家居财富蓝海

联袂共赢,登峯造极!联邦高登全屋定制2024高级合伙人合作峰会将于6月13日启动,联邦高登销...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图