Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

公開日 Tue, 10 Ma

📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

超巨大 AI の「分業制」を加速する魔法のレシピ

NVIDIA Megatron Core MoE の仕組みをわかりやすく解説

この論文は、**「Mixture-of-Experts（MoE）」**という、超巨大な AI 模型を効率的にトレーニング（学習）させるための、NVIDIA 社が開発した「Megatron Core」という技術について書かれています。

これを一言で言うと、**「何千もの GPU（計算機）を使って、何兆パラメータという巨大な AI を、メモリ不足や通信の遅延に悩まされずに、爆速で学習させるための『完全なマニュアル』」**です。

1. MoE とは何か？「大規模な専門家のチーム」

まず、MoE（Mixture-of-Experts）とは何でしょうか？

従来の AI は、すべての計算を「一人の万能な職人」がこなしていました。しかし、MoE は**「何百人もの専門家がチームで働く」**という仕組みです。

ルーター（リーダー）： 入力された質問（トークン）を見て、「これは A さんの得意分野だ」「これは B さんに任そう」と判断します。
エキスパート（専門家）： 選ばれた少数の専門家だけがその質問に答えます。他の専門家は休んでいます。

メリット：

超巨大化： 専門家（パラメータ）を何百人増やしても、一度に使うのは数人だけなので、計算コストはあまり増えません。
効率： 必要なことだけをするので、賢く、省エネです。

しかし、ここには大きな「3 つの壁」がありました。

2. 超巨大 AI 学習の「3 つの壁」と、それを乗り越える方法

MoE を大規模に動かそうとすると、3 つの大きな問題（壁）にぶつかります。Megatron Core は、これらをすべて同時に解決する「魔法のセット」を提供します。

🧱 壁①：メモリ壁（「部屋が狭すぎる！」問題）

状況：
何百人もの専門家（パラメータ）のデータはすべて「部屋（GPU メモリ）」に置いておかなければなりません。しかし、一度に使うのは数人だけです。

例え： 1000 人の従業員がいる会社で、毎日 10 人しか出勤しないのに、1000 人分の机と椅子をすべて用意し、かつ出勤した 10 人の作業メモもすべて机の上に広げている状態です。部屋がパンクします。

解決策：

細かなリサイクル（Recomputation）： 作業メモ（活性化値）を一度捨てて、必要な時に「計算し直す」ことで、机のスペースを空けます。
倉庫への預け入れ（Offloading）： 今使わないデータは、GPU ではなく CPU（倉庫）に一時預けます。
圧縮（FP8/FP4）： データを「高解像度写真」から「高効率な圧縮画像」に変換して、必要な容量を半分以下にします。

📡 壁②：通信壁（「連絡が混雑する！」問題）

状況：
「誰がどの専門家に頼むか」を決めるために、何千台の GPU 間でデータをやり取りする必要があります。

例え： 1000 人の従業員が、それぞれの得意分野の担当者に「この仕事頼む！」とメールを送り合う場面です。全員が同時に送ると、メールサーバー（通信回線）がパンクして、作業が止まってしまいます。

解決策：

高速配送網（DeepEP/HybridEP）： 通常のメール（通信）ではなく、専用レーンの高速配送網を使って、データを素早く届けます。
並行作業（Overlap）： 「データを届けている間」に、他の専門家が「次の作業」を始めてしまいます。待ち時間をゼロにします。

⚡ 壁③：計算効率壁（「作業が細かすぎて非効率！」問題）

状況：
専門家ごとの計算量が小さすぎて、GPU という「巨大な工場」が空回りしてしまいます。また、CPU が「次の指示を出す」のに追いつかず、GPU が待たされることもあります。

例え： 巨大な工場で、1 個ずつのネジを回す作業をさせている状態。機械が「ネジを掴む」「回す」「置く」を繰り返すだけで、本格的な生産（計算）ができていません。

解決策：

一括処理（Grouped GEMM）： 小さなネジ回し作業をまとめて、一度に大量に処理できるようにします。
自動化（CUDA Graphs）： 「指示を出す」作業を自動化し、CPU が待たされるのを防ぎます。
負荷分散（ECHO）： 特定の専門家に仕事が多すぎる場合、その専門家の「分身（クローン）」を別の場所に作って、仕事を分散させます。

3. 最大の特徴：「並列折りたたみ（Parallel Folding）」

これがこの論文の最大の「ひらめき」です。

従来のシステムでは、「Attention（文脈理解）」と「MoE（専門家）」という 2 つの異なる作業を、同じルール（並列化の仕方）でやらなければなりませんでした。

例え： 「料理を作る人（Attention）」と「皿洗いをする人（MoE）」が、同じ人数のチームで動かなければならないため、どちらかが非効率になっていました。

Megatron Core の解決策：

「料理」には「料理専用のチーム」を、「皿洗い」には「皿洗い専用のチーム」を、それぞれ最適な人数で組ませる！
これを**「並列折りたたみ」**と呼びます。これにより、それぞれの作業が最も効率的に動くようになり、全体のパフォーマンスが劇的に向上します。

4. 実際の成果：どれくらい速いのか？

この技術を使って、DeepSeek-V3（6850 億パラメータ）や Qwen3（2350 億パラメータ）といった超巨大モデルを学習させた結果は驚異的です。

GB300/GB200（最新 GPU）： 1 台の GPU あたり、1,233 TFLOPS（1 秒間に 1 兆回以上の計算）を達成。
H100（前世代 GPU）： 1,000 台規模のクラスターでも、安定して高速に学習可能。

これは、**「数年かかっていた学習が、数週間に短縮される」**レベルの進化です。

まとめ

この論文は、**「巨大な AI を作るには、単に計算機を増やせばいいわけではない。メモリ、通信、計算のバランスを、まるでオーケストラの指揮者のように完璧に調整する必要がある」**と教えています。

NVIDIA の Megatron Core は、その調整を自動化し、最適化する「楽譜」を提供しました。おかげで、研究者や企業は、何兆パラメータ級の AI を、より安く、より速く、より安定して作れるようになったのです。

一言で言えば：

「何千人もの専門家チームを、狭い部屋で、混雑する回線で、無駄なく動かすための『究極の運営マニュアル』」

これが、2026 年（論文の日付）の AI 開発を支える基盤技術です。

Each language version is independently generated for its own context, not a direct translation.

NVIDIA Megatron-Core による大規模 Mixture-of-Experts (MoE) モデルの拡張可能なトレーニング技術に関する論文の技術的概要

本論文は、NVIDIA が開発した大規模言語モデルトレーニングフレームワーク「Megatron-Core」における、Mixture-of-Experts (MoE) アーキテクチャのトレーニングを可能にする包括的な最適化スタックについて詳述しています。特に、DeepSeek-V3 や Qwen3 などの最新の大規模 MoE モデルを数千枚の GPU クラスターで効率的にトレーニングするためのシステム設計、並列化戦略、およびパフォーマンス最適化手法を提示しています。

以下に、論文の主要な構成要素を問題定義、手法、主要な貢献、結果、そして意義に分けて詳細にまとめます。

1. 問題定義：MoE トレーニングにおける「3 つの壁」

MoE モデルは、トランスフォーマーの FFN レイヤーを複数の専門家のネットワーク（エキスパート）に置き換え、各トークンに対して一部の専門家のみを活性化させることで、モデル容量を計算コストの増加なしに劇的に拡大できます。しかし、このスパース性（疎性）は、従来の Dense モデル用フレームワークでは想定されていないシステム上の課題を生み出します。

著者は、MoE トレーニングを阻害する**「3 つの壁（Three Walls）」**を特定しました。これらは密接に絡み合っており、一方を最適化すると他方に圧力が移るというトレードオフが存在します。

メモリ壁 (Memory Wall)
- 課題: トークンあたりの計算量は活性化された少数の専門家（ $K$ ）に依存しますが、メモリにはすべての専門家（ $E$ ）のパラメータ、勾配、オプティマイザ状態を保持する必要があります（例：DeepSeek-V3 は総パラメータ 685B に対し、活性化パラメータは 37B 程度）。
- 結果: 高密度な Dense モデルに比べて、活性化メモリとパラメータメモリが GPU 容量を大幅に超過し、トレーニングが不可能になるリスクがあります。また、動的ルーティングによる負荷の偏りもメモリスパイクを引き起こします。
通信壁 (Communication Wall)
- 課題: エキスパート並列化（EP）を実現するため、トークンを割り当てられたエキスパートを持つ GPU へ転送する「All-to-All」通信が必要です。
- 結果: EP 規模が大きくなると、通信量がノード間（Inter-node）に及ぶようになり、帯域幅が NVLink などに比べて 1 桁以上低下します。また、細粒度のエキスパートは計算が短いため、通信を計算で隠蔽（オーバーラップ）することが困難です。
計算効率壁 (Compute Efficiency Wall)
- 課題: 多数の小さなエキスパートは、GPU の Tensor Core を十分に活用できない小さな GEMM（行列積）を生成します。また、ルーティングやパーミュテーション（並べ替え）のための多数の小さなカーネル起動により、ホスト（CPU）側のオーバーヘッドが支配的になります。
- 結果: GPU の利用率が低下し、特にドロップレス（トークン廃棄なし）な MoE において、動的な形状変化による CPU-GPU 同期がボトルネックとなります。

2. 手法と主要な技術的貢献

Megatron-Core は、上記の 3 つの壁を同時に打破し、相互の依存関係を管理するための統合された最適化スタックを提供します。

2.1. 並列化戦略：パラレル・フォールディング (Parallel Folding)

従来の並列化では、アテンション層と MoE レイヤーが同じ並列設定を強要されていました。しかし、アテンション層には高次元の Tensor 並列（TP）が有効ですが、MoE レイヤーにはエキスパート並列（EP）が有効であり、これらは衝突します。

解決策: パラレル・フォールディングを導入し、アテンション層と MoE レイヤーの並列マッピングを解離させました。
- アテンション層：TP/CP（コンテキスト並列）を高く設定。
- MoE レイヤー：EP を高く設定し、TP は 1（エキスパート全体を 1 GPU に保持）に設定。
- これにより、EP $\le$ DP という従来の制約を打破し、数千枚の GPU クラスターで最適なトポロジーを柔軟に構成可能にしました。

2.2. メモリ壁の打破

メモリ効率の良いパーミュテーション: ルーティング重みを活性化の計算前に適用することで、バックプロパゲーションで保存する中間テンソルを削減し、ゼロオーバーヘッドでメモリを節約します。
低精度トレーニング (FP8/FP4): 活性化メモリを 50%〜75% 削減。FP8/FP4 でのトレーニングを可能にしつつ、数値的安定性を保つための選択的精度（ルーターやオプティマイザ状態は高精度維持）を適用。
微細な再計算 (Fine-grained Recomputation): メモリ消費が大きい計算コストの低いモジュール（LayerNorm など）のみを再計算し、メモリと計算のトレードオフを最適化します。
微細なアクティベーションオフロード: GPU メモリ不足時に、CPU メモリへアクティベーションを非同期で転送し、PCIe 帯域幅を有効活用します。
FSDP と分散オプティマイザ: エキスパートパラメータを EP グループ内でシャード化し、メモリ使用量を大幅に削減します。

2.3. 通信壁の打破

最適化されたディスパッチャ (DeepEP / HybridEP): 従来の NCCL All-to-All に代わり、トークンベースのディスパッチを採用。NVLink 環境（HybridEP）やノード間環境（DeepEP）に特化したカーネルにより、帯域幅利用率を最大化します。
通信・計算のオーバーラップ: 1F1B スケジューリングと DualPipe 型の手法を組み合わせ、マイクロバッチ間のフォワード/バックワードをマージし、All-to-All 通信を計算の背後に隠蔽します。これにより、通信時間をトレーニング時間の 5% 未満に抑えています。

2.4. 計算効率壁の打破

Grouped GEMM: 多数の小さなエキスパートの計算をバッチ処理し、GPU 利用率を向上させます。
カーネルフュージョン: ルーター、パーミュテーション、補助損失計算などを単一のカーネルに融合し、CPU オーバーヘッドを削減します。
CUDA Graphs と同期フリー実行:
- CUDA Graphs: カーネル起動のホストオーバーヘッドを排除。
- Sync-Free Kernels: ドロップレス MoE の動的形状問題を解決するため、デバイス側で形状情報を取得し、ホストとの同期を不要にするカーネルを設計。
- ECHO (Elastic Cloning for Hot Experts): 人気のあるエキスパートを動的に複製し、負荷分散を改善してメモリ断片化とアイドル時間を削減。
- Paged Stashing: CUDA Graph 内でのメモリ断片化を解消するため、ページング方式でメモリを管理し、必要最小限のバッファのみを確保します。

2.5. 長文脈トレーニングと RL 対応

長文脈: 文脈並列（CP）と TP の組み合わせにより、長いシーケンス（16K〜64K+）でのアテンション計算の支配的負担に対処。パッキングされたシーケンスと動的 CP（Dynamic-CP）により、可変長シーケンスの非効率性を解消。
強化学習 (RL): 可変長シーケンス、推論とトレーニングのメモリ共有、オンライン重みエクスポート、ルーターの再生（Router Replay）など、RL 特有の課題に対応する機能を提供。

3. 性能評価結果

NVIDIA の最新ハードウェア（GB300, GB200, H100）を用いたベンチマーク結果は、この最適化スタックの効果を証明しています。

DeepSeek-V3 (685B パラメータ, 256 エキスパート):
- GB300 (256 GPU): 1,233 TFLOPS/GPU
- GB200 (256 GPU): 1,048 TFLOPS/GPU
- H100 (1024 GPU): 368 TFLOPS/GPU
- 注: GB300/200 は H100 に比べて約 3 倍のスループットを達成。
Qwen3-235B:
- GB300: 974 TFLOPS/GPU
- GB200: 919 TFLOPS/GPU
- H100: 320 TFLOPS/GPU

これらの結果は、数兆パラメータ規模のモデルを数千枚の GPU クラスターで、高い MFU（Model FLOP Utilization）でトレーニング可能であることを示しています。

4. 意義と結論

本論文の意義は以下の点に集約されます。

実用化の扉を開く: 従来の MoE トレーニングはメモリや通信の制約により大規模化が困難でしたが、Megatron-Core の最適化スタックにより、数兆パラメータ規模の MoE モデルを産業レベルでトレーニング可能にしました。
システムレベルの共設計: メモリ、通信、計算の 3 つの壁を独立してではなく、システム全体として捉え、互いに競合する最適化（例：FP8 による計算加速と CPU オーバーヘッドの増大、CUDA Graphs と動的形状の矛盾）を調整する包括的なアプローチを示しました。
オープンソースと再現性: 学術界および産業界で広く利用可能なオープンソースソリューションとして提供されており、DeepSeek-V3 や Qwen3 などの最先端モデルのトレーニングに実際に採用されています。
将来のアーキテクチャへの対応: 長文脈トレーニングや強化学習（RL）ポストトレーニングなど、次世代の AI ワークロードに対応するための柔軟な基盤を提供しています。

結論として、Megatron-Core MoE は、MoE のスパース性がもたらすパラメータと計算量のミスマッチを克服し、ハードウェアの限界を超えてスケーラブルな大規模モデルトレーニングを実現するための重要な技術的基盤となっています。

Scalable Training of Mixture-of-Experts Models with Megatron Core

超巨大 AI の「分業制」を加速する魔法のレシピ

NVIDIA Megatron Core MoE の仕組みをわかりやすく解説

1. MoE とは何か？「大規模な専門家のチーム」

2. 超巨大 AI 学習の「3 つの壁」と、それを乗り越える方法

🧱 壁①：メモリ壁（「部屋が狭すぎる！」問題）

📡 壁②：通信壁（「連絡が混雑する！」問題）

⚡ 壁③：計算効率壁（「作業が細かすぎて非効率！」問題）

3. 最大の特徴：「並列折りたたみ（Parallel Folding）」

4. 実際の成果：どれくらい速いのか？

まとめ

NVIDIA Megatron-Core による大規模 Mixture-of-Experts (MoE) モデルの拡張可能なトレーニング技術に関する論文の技術的概要

1. 問題定義：MoE トレーニングにおける「3 つの壁」

2. 手法と主要な技術的貢献

2.1. 並列化戦略：パラレル・フォールディング (Parallel Folding)

2.2. メモリ壁の打破

2.3. 通信壁の打破

2.4. 計算効率壁の打破

2.5. 長文脈トレーニングと RL 対応

3. 性能評価結果

4. 意義と結論

関連論文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models