Scalable Training of Mixture-of-Experts Models with Megatron Core

本文介绍了 Megatron Core 中针对混合专家(MoE)模型可扩展训练的系统级协同优化方案,通过整合内存、通信和计算层面的多项创新技术,在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是 NVIDIA 如何开发了一套名为 Megatron-Core 的“超级工具箱”,用来训练一种叫 MoE(混合专家模型) 的巨型人工智能。

为了让你轻松理解,我们可以把训练一个大模型想象成经营一家超大型的跨国咨询公司

1. 什么是 MoE(混合专家模型)?

传统的 AI 模型像是一个全能型天才,不管遇到什么问题(写代码、写诗、算数),这个天才都要动用他脑子里所有的知识来回答。这很费脑子(计算量大),而且如果模型太大,一个天才记不住所有知识(显存不够)。

MoE 模型则换了一种思路:它雇佣了成千上万个“小专家”(比如有的专攻数学,有的专攻文学,有的专攻编程)。

  • 当客户(数据)来提问时,有一个**“调度员”(Router)** 会先看一眼问题,然后只把问题派给最擅长的那几个专家(比如只派给数学专家)。
  • 好处:模型总人数(参数量)可以超级多(知识渊博),但每次只让几个人干活(计算量小),既聪明又高效。

2. 遇到的三大“拦路虎”(三大墙壁)

虽然 MoE 很聪明,但要把几万个专家同时训练起来,就像要把几千人同时塞进一个狭小的会议室开会,遇到了三个大麻烦:

🧱 第一堵墙:内存墙(Memory Wall)——“会议室太小,坐不下”

  • 问题:虽然每次只派几个专家干活,但所有专家的简历、笔记和待办事项(参数、梯度、优化器状态)都必须放在会议室里,以防万一有人被叫来。如果专家太多,会议室(GPU 显存)瞬间就爆满了,根本开不了会。
  • NVIDIA 的解法
    • 压缩笔记:把笔记从“精装版”(高精度)改成“速记版”(FP8/FP4 低精度),省下一半空间。
    • 随用随记:不把所有笔记都打印出来,而是“算一步记一步”,算完就撕掉,需要时再重新算(重计算技术)。
    • 借用隔壁房间:实在坐不下,就把暂时不用的资料搬到隔壁的 CPU 房间去(Offloading),用的时候再搬回来。

📡 第二堵墙:通信墙(Communication Wall)——“传话太慢,大家等得急”

  • 问题:因为专家分散在不同的 GPU(不同的会议室)上,调度员把问题派给专家,专家算完要把结果传回来。如果专家太多,传话(All-to-All 通信)的时间比干活的时间还长,大家大部分时间都在等消息,效率极低。
  • NVIDIA 的解法
    • 升级传话员:发明了更高效的传话工具(DeepEP, HybridEP),让传话速度接近光速。
    • 边干活边传话:让专家在算下一道题的时候,顺便把上一道题的结果传出去(通信与计算重叠),这样传话的时间就被“隐藏”起来了,大家感觉不到等待。

⚡ 第三堵墙:计算效率墙(Compute Efficiency Wall)——“大材小用,显卡在发呆”

  • 问题:因为每个专家只处理很少的几道题,导致 GPU 这个“超级计算机”经常处于**“大马拉小车”**的状态。而且,因为任务太碎,CPU 指挥 GPU 干活太频繁,指挥的时间比干活的时间还长(CPU 开销)。
  • NVIDIA 的解法
    • 打包干活:把很多小任务打包成一个大任务一次性处理(Grouped GEMM),让 GPU 吃饱。
    • 自动化指挥:把指挥流程画成一张“流程图”(CUDA Graphs),让 GPU 自己照着图跑,不需要 CPU 每次都发号施令,消除了指挥的延迟。
    • 动态平衡:如果某个专家太忙,就临时叫几个“克隆体”来帮忙(ECHO),避免有人累死,有人闲死。

3. 核心黑科技:平行折叠(Parallel Folding)

这是这篇论文最巧妙的地方。

  • 以前的困境:在训练时,Attention 层(负责理解上下文)和 MoE 层(专家层)需要不同的“座位安排”(并行策略)。以前大家被迫共用一套座位安排,结果要么 Attention 层挤在一起效率低,要么专家层坐得太散传话慢。
  • 现在的解法平行折叠
    • 想象一下,以前大家必须按“行”坐(所有层一样)。现在,Attention 层可以按“行”坐,MoE 层可以按“列”坐
    • 系统把这两套座位安排“折叠”在一起,互不干扰。这样,Attention 层可以用最高效的方式,MoE 层也能用最高效的方式,两者完美配合,不再互相拖累。

4. 成果如何?

这套系统非常强大,已经在真实的超级计算机上跑通了:

  • DeepSeek-V3(6850 亿参数)和 Qwen3(2350 亿参数)这些超大型模型,在 NVIDIA 最新的 GB300/GB200 芯片上,训练速度达到了惊人的每秒 1000+ TFLOPS(相当于每秒进行一千万亿次计算)。
  • 它不仅能处理短文本,还能处理超长文本(比如几十万字的一本书),甚至能用于强化学习(让 AI 像下棋一样自我进化)。

总结

简单来说,NVIDIA 的 Megatron-Core 就像是为巨型 AI 模型设计的一套超级物流系统
它解决了**“东西太多装不下(内存)”、“东西传太慢(通信)”、“干活太碎没效率(计算)”** 这三个核心难题。通过**“低精度压缩”、“边传边算”、“自动指挥”** 和**“灵活座位安排”** 等技巧,让训练万亿参数的 AI 模型变得像搭积木一样高效可行。

这就是为什么现在的 AI 能越来越聪明,而且训练成本越来越低的原因。