Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

发布于 Tue, 10 Ma

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是 NVIDIA 如何开发了一套名为 Megatron-Core 的“超级工具箱”，用来训练一种叫 MoE（混合专家模型） 的巨型人工智能。

为了让你轻松理解，我们可以把训练一个大模型想象成经营一家超大型的跨国咨询公司。

1. 什么是 MoE（混合专家模型）？

传统的 AI 模型像是一个全能型天才，不管遇到什么问题（写代码、写诗、算数），这个天才都要动用他脑子里所有的知识来回答。这很费脑子（计算量大），而且如果模型太大，一个天才记不住所有知识（显存不够）。

MoE 模型则换了一种思路：它雇佣了成千上万个“小专家”（比如有的专攻数学，有的专攻文学，有的专攻编程）。

当客户（数据）来提问时，有一个**“调度员”（Router）** 会先看一眼问题，然后只把问题派给最擅长的那几个专家（比如只派给数学专家）。
好处：模型总人数（参数量）可以超级多（知识渊博），但每次只让几个人干活（计算量小），既聪明又高效。

2. 遇到的三大“拦路虎”（三大墙壁）

虽然 MoE 很聪明，但要把几万个专家同时训练起来，就像要把几千人同时塞进一个狭小的会议室开会，遇到了三个大麻烦：

🧱 第一堵墙：内存墙（Memory Wall）——“会议室太小，坐不下”

问题：虽然每次只派几个专家干活，但所有专家的简历、笔记和待办事项（参数、梯度、优化器状态）都必须放在会议室里，以防万一有人被叫来。如果专家太多，会议室（GPU 显存）瞬间就爆满了，根本开不了会。
NVIDIA 的解法：
- 压缩笔记：把笔记从“精装版”（高精度）改成“速记版”（FP8/FP4 低精度），省下一半空间。
- 随用随记：不把所有笔记都打印出来，而是“算一步记一步”，算完就撕掉，需要时再重新算（重计算技术）。
- 借用隔壁房间：实在坐不下，就把暂时不用的资料搬到隔壁的 CPU 房间去（Offloading），用的时候再搬回来。

📡 第二堵墙：通信墙（Communication Wall）——“传话太慢，大家等得急”

问题：因为专家分散在不同的 GPU（不同的会议室）上，调度员把问题派给专家，专家算完要把结果传回来。如果专家太多，传话（All-to-All 通信）的时间比干活的时间还长，大家大部分时间都在等消息，效率极低。
NVIDIA 的解法：
- 升级传话员：发明了更高效的传话工具（DeepEP, HybridEP），让传话速度接近光速。
- 边干活边传话：让专家在算下一道题的时候，顺便把上一道题的结果传出去（通信与计算重叠），这样传话的时间就被“隐藏”起来了，大家感觉不到等待。

⚡ 第三堵墙：计算效率墙（Compute Efficiency Wall）——“大材小用，显卡在发呆”

问题：因为每个专家只处理很少的几道题，导致 GPU 这个“超级计算机”经常处于**“大马拉小车”**的状态。而且，因为任务太碎，CPU 指挥 GPU 干活太频繁，指挥的时间比干活的时间还长（CPU 开销）。
NVIDIA 的解法：
- 打包干活：把很多小任务打包成一个大任务一次性处理（Grouped GEMM），让 GPU 吃饱。
- 自动化指挥：把指挥流程画成一张“流程图”（CUDA Graphs），让 GPU 自己照着图跑，不需要 CPU 每次都发号施令，消除了指挥的延迟。
- 动态平衡：如果某个专家太忙，就临时叫几个“克隆体”来帮忙（ECHO），避免有人累死，有人闲死。

3. 核心黑科技：平行折叠（Parallel Folding）

这是这篇论文最巧妙的地方。

以前的困境：在训练时，Attention 层（负责理解上下文）和 MoE 层（专家层）需要不同的“座位安排”（并行策略）。以前大家被迫共用一套座位安排，结果要么 Attention 层挤在一起效率低，要么专家层坐得太散传话慢。
现在的解法：平行折叠。
- 想象一下，以前大家必须按“行”坐（所有层一样）。现在，Attention 层可以按“行”坐，MoE 层可以按“列”坐。
- 系统把这两套座位安排“折叠”在一起，互不干扰。这样，Attention 层可以用最高效的方式，MoE 层也能用最高效的方式，两者完美配合，不再互相拖累。

4. 成果如何？

这套系统非常强大，已经在真实的超级计算机上跑通了：

DeepSeek-V3（6850 亿参数）和 Qwen3（2350 亿参数）这些超大型模型，在 NVIDIA 最新的 GB300/GB200 芯片上，训练速度达到了惊人的每秒 1000+ TFLOPS（相当于每秒进行一千万亿次计算）。
它不仅能处理短文本，还能处理超长文本（比如几十万字的一本书），甚至能用于强化学习（让 AI 像下棋一样自我进化）。

总结

简单来说，NVIDIA 的 Megatron-Core 就像是为巨型 AI 模型设计的一套超级物流系统。
它解决了**“东西太多装不下（内存）”、“东西传太慢（通信）”、“干活太碎没效率（计算）”** 这三个核心难题。通过**“低精度压缩”、“边传边算”、“自动指挥”** 和**“灵活座位安排”** 等技巧，让训练万亿参数的 AI 模型变得像搭积木一样高效可行。

这就是为什么现在的 AI 能越来越聪明，而且训练成本越来越低的原因。

Each language version is independently generated for its own context, not a direct translation.

《使用 Megatron Core 大规模训练混合专家模型（MoE）》技术总结

这篇由 NVIDIA 发布的报告详细介绍了 Megatron-Core MoE 框架，这是一个专为大规模混合专家（Mixture-of-Experts, MoE）模型训练设计的开源系统栈。该框架旨在解决在数千张 GPU 集群上训练万亿参数级 MoE 模型（如 DeepSeek-V3、Qwen3）时面临的系统性挑战。

以下是对该报告的详细技术总结：

1. 核心问题 (The Problem)

MoE 模型通过仅激活部分参数（专家）来处理每个 Token，实现了模型容量与计算成本的解耦，显著降低了训练成本。然而，这种稀疏性引入了传统稠密模型（Dense Models）中不存在的系统性挑战，被称为**“三堵墙” (The Three Walls)**：

内存墙 (Memory Wall)：
- 参数 - 计算不匹配： 虽然每个 Token 只激活少量专家，但所有专家的参数、梯度和优化器状态必须驻留在显存中。例如 DeepSeek-V3 总参数 685B，但每 Token 仅激活 37B，导致显存需求远超同等计算量的稠密模型。
- 激活显存爆炸： 动态路由导致 Token 分布不均，且激活显存随序列长度和 Top-K 增加而急剧增长，极易超出单卡显存限制。
通信墙 (Communication Wall)：
- All-to-All 通信瓶颈： 专家并行（EP）需要跨 GPU 进行 Token 的 All-to-All 通信。随着 EP 规模扩大，通信量增加，且常需跨越节点（Inter-node），受限于低带宽互连，通信时间可占训练步骤的 30%-60%。
- 计算 - 通信重叠困难： 细粒度专家计算速度快，难以掩盖长距离通信延迟。
计算效率墙 (Compute Efficiency Wall)：
- 小矩阵低效： 细粒度专家导致大量小尺寸 GEMM（矩阵乘法），无法充分利用 GPU Tensor Core。
- Host 开销： 动态路由导致 Tensor 形状动态变化，引发频繁的 Host-Device 同步和内核启动开销，导致 GPU 空闲（Host-bounded）。
- 负载不均衡： 动态路由可能导致某些专家过载而其他专家空闲。

此外，MoE 还面临稠密 - 稀疏不匹配 (Dense-Sparse Mismatch) 问题：Attention 层（稠密）和 MoE 层（稀疏）对并行策略（如张量并行 TP 和专家并行 EP）的最优配置截然不同，传统框架强制两者共享同一并行配置，导致性能次优。

2. 方法论与核心架构 (Methodology & Architecture)

Megatron-Core MoE 通过全栈协同设计，从并行策略、内存管理、通信优化和计算效率四个维度打破上述瓶颈。

2.1 并行策略：并行折叠 (Parallel Folding) 与多维并行

并行折叠 (Parallel Folding)： 这是解决“稠密 - 稀疏不匹配”的关键创新。它解耦了 Attention 层和 MoE 层的并行映射。
- 传统限制： 以前要求 $EP \le DP$ （专家并行度必须小于等于数据并行度），导致无法独立优化。
- 新机制： 允许 Attention 层使用高 TP/CP（张量/上下文并行）以优化大矩阵计算，而 MoE 层使用高 EP（专家并行）且 $TP=1$ 以保留专家完整宽度。EP 可以“折叠”跨越 TP/CP 组，不再受限于 DP 大小。
- 优势： 显著降低了最小 GPU 需求，并允许在 NVLink 域内保持高带宽通信。
多维并行栈： 支持 TP, CP, PP, DP, EP, ETP (专家张量并行), EDP (专家数据并行) 的灵活组合。

2.2 内存优化 (Breaking the Memory Wall)

内存高效置换 (Memory-Efficient Permutation)： 零开销技术，通过数学重排将路由权重吸收进激活值，消除冗余中间张量，节省约 26GB 显存（DeepSeek-V3 案例）。
细粒度重计算 (Fine-grained Recomputation)： 仅重计算高显存占用但计算成本低的操作（如 LayerNorm, 激活函数），而非整层重计算，大幅降低计算开销。
细粒度激活卸载 (Fine-grained Activation Offloading)： 将特定模块的激活值异步卸载到 CPU 内存，利用 PCIe 带宽换取显存空间，支持深度模型训练。
低精度优化器与状态卸载： 使用 BF16/FP8 存储优化器状态，并将优化器状态卸载到 CPU，减少显存占用。
FSDP for MoE： 结合 FSDP 与 EP，在专家数据并行组内分片参数和优化器状态，进一步降低显存。

2.3 通信优化 (Breaking the Communication Wall)

高性能调度器 (DeepEP & HybridEP)：
- DeepEP： 针对 H100 等架构优化，利用 TMA 等硬件原语，消除冗余置换，最大化带宽。
- HybridEP： 针对 NVL72 等多节点 NVLink 拓扑优化，利用 RDMA 和 FIFO 队列，在节点间和节点内实现高效重叠。
通信 - 计算重叠 (Overlap)： 采用 1F1B 调度策略，将前向/后向的 All-to-All 通信与相邻微批次的计算重叠。结合 W/D 分裂（权重梯度与数据梯度分离），将 EP 通信开销从 30-40% 降至 5% 以下。

2.4 计算效率优化 (Breaking the Compute Efficiency Wall)

Grouped GEMM 与内核融合： 将多个小专家的计算合并为 Grouped GEMM，减少内核启动次数；融合路由、置换和辅助损失计算。
CUDA Graphs： 消除每轮迭代的 Host 开销。
- Partial CUDA Graphs： 捕获静态部分（Attention, Router, 预处理），动态专家计算部分保持动态。
- Full CUDA Graphs for Dropless MoE： 通过Sync-Free Kernels（设备端启动内核，无需 Host 同步）、ECHO（弹性克隆热门专家以平衡负载）和Paged Stashing（分页存储激活值以减少显存碎片），实现了无需 Token 丢弃的完整 CUDA Graph 覆盖。
低精度训练 (FP8/FP4)： 在专家 GEMM 和激活值上使用 FP8/FP4，利用新一代 Tensor Core 加速计算，同时减少显存和通信量。

3. 关键贡献 (Key Contributions)

Parallel Folding 框架： 首次系统性地解耦了 Attention 和 MoE 层的并行配置，打破了 $EP \le DP$ 的长期限制，实现了针对特定模型和硬件拓扑的独立优化。
全栈协同优化： 提出了针对“三堵墙”的综合解决方案，特别是通过 ECHO 和 Paged Stashing 实现了 Dropless MoE 的 Full CUDA Graphs 支持，解决了动态形状与静态 Graph 的冲突。
生产级特性： 提供了分布式检查点（支持任意并行重配置）、Upcycling（从稠密模型升级）、多 Token 预测 (MTP) 支持以及针对强化学习 (RL) 的优化（如动态上下文并行 Dynamic-CP）。
低精度训练生态： 提供了从 Per-Tensor FP8 到 MXFP8 (Blackwell) 和 NVFP4 的完整训练配方，并解决了 MoE 特有的量化挑战（如路由稳定性、分组量化）。

4. 实验结果 (Results)

报告在 NVIDIA GB300, GB200 和 H100 集群上对 DeepSeek-V3 (685B) 和 Qwen3-235B 进行了基准测试：

DeepSeek-V3 (685B)：
- GB300 (256 卡)： 达到 1,233 TFLOPS/GPU。
- GB200 (256 卡)： 达到 1,048 TFLOPS/GPU。
- H100 (1024 卡)： 达到 368 TFLOPS/GPU。
Qwen3-235B：
- GB300 (256 卡)： 达到 974 TFLOPS/GPU。
- GB200 (256 卡)： 达到 919 TFLOPS/GPU。
长上下文： 在 131K 序列长度下，Qwen3 在 GB300 上仍保持 1,150 TFLOPS/GPU 的高效性能。
对比： GB200/GB300 相比 H100 实现了约 3 倍 的 Token 吞吐量提升，主要得益于更高的显存带宽、计算能力和 MXFP8 原生支持。

5. 意义与影响 (Significance)

解锁万亿参数训练： 该框架使得在现有硬件上训练万亿参数级 MoE 模型成为可能，将显存需求从不可行（>199GB/卡）降低到可行范围（<80GB/卡）。
工业级标准： 提供了从研究原型到生产部署的完整工具链，包括负载均衡、分布式检查点、RL 集成等，已被学术界和工业界广泛采用。
硬件协同设计： 展示了如何通过软件栈（如 Parallel Folding, HybridEP）充分利用下一代硬件（Blackwell/GB200）的特性，最大化硬件利用率。
开源生态： 作为开源解决方案，降低了大规模 MoE 训练的门槛，推动了大模型架构的演进（如细粒度专家、Latent MoE 等）。

总结： Megatron-Core MoE 不仅仅是一个训练框架，更是一套针对 MoE 稀疏性带来的系统性挑战的完整工程解决方案。它通过并行折叠、细粒度内存管理、通信重叠和同步无关执行等创新技术，成功打破了内存、通信和计算效率的壁垒，为下一代超大规模语言模型的训练奠定了坚实基础。

Scalable Training of Mixture-of-Experts Models with Megatron Core