Scalable Training of Mixture-of-Experts Models with Megatron Core

本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家(MoE)モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

超巨大 AI の「分業制」を加速する魔法のレシピ

NVIDIA Megatron Core MoE の仕組みをわかりやすく解説

この論文は、**「Mixture-of-Experts(MoE)」**という、超巨大な AI 模型を効率的にトレーニング(学習)させるための、NVIDIA 社が開発した「Megatron Core」という技術について書かれています。

これを一言で言うと、**「何千もの GPU(計算機)を使って、何兆パラメータという巨大な AI を、メモリ不足や通信の遅延に悩まされずに、爆速で学習させるための『完全なマニュアル』」**です。


1. MoE とは何か?「大規模な専門家のチーム」

まず、MoE(Mixture-of-Experts)とは何でしょうか?

従来の AI は、すべての計算を「一人の万能な職人」がこなしていました。しかし、MoE は**「何百人もの専門家がチームで働く」**という仕組みです。

  • ルーター(リーダー): 入力された質問(トークン)を見て、「これは A さんの得意分野だ」「これは B さんに任そう」と判断します。
  • エキスパート(専門家): 選ばれた少数の専門家だけがその質問に答えます。他の専門家は休んでいます。

メリット:

  • 超巨大化: 専門家(パラメータ)を何百人増やしても、一度に使うのは数人だけなので、計算コストはあまり増えません。
  • 効率: 必要なことだけをするので、賢く、省エネです。

しかし、ここには大きな「3 つの壁」がありました。


2. 超巨大 AI 学習の「3 つの壁」と、それを乗り越える方法

MoE を大規模に動かそうとすると、3 つの大きな問題(壁)にぶつかります。Megatron Core は、これらをすべて同時に解決する「魔法のセット」を提供します。

🧱 壁①:メモリ壁(「部屋が狭すぎる!」問題)

状況:
何百人もの専門家(パラメータ)のデータはすべて「部屋(GPU メモリ)」に置いておかなければなりません。しかし、一度に使うのは数人だけです。

  • 例え: 1000 人の従業員がいる会社で、毎日 10 人しか出勤しないのに、1000 人分の机と椅子をすべて用意し、かつ出勤した 10 人の作業メモもすべて机の上に広げている状態です。部屋がパンクします。

解決策:

  • 細かなリサイクル(Recomputation): 作業メモ(活性化値)を一度捨てて、必要な時に「計算し直す」ことで、机のスペースを空けます。
  • 倉庫への預け入れ(Offloading): 今使わないデータは、GPU ではなく CPU(倉庫)に一時預けます。
  • 圧縮(FP8/FP4): データを「高解像度写真」から「高効率な圧縮画像」に変換して、必要な容量を半分以下にします。

📡 壁②:通信壁(「連絡が混雑する!」問題)

状況:
「誰がどの専門家に頼むか」を決めるために、何千台の GPU 間でデータをやり取りする必要があります。

  • 例え: 1000 人の従業員が、それぞれの得意分野の担当者に「この仕事頼む!」とメールを送り合う場面です。全員が同時に送ると、メールサーバー(通信回線)がパンクして、作業が止まってしまいます。

解決策:

  • 高速配送網(DeepEP/HybridEP): 通常のメール(通信)ではなく、専用レーンの高速配送網を使って、データを素早く届けます。
  • 並行作業(Overlap): 「データを届けている間」に、他の専門家が「次の作業」を始めてしまいます。待ち時間をゼロにします。

⚡ 壁③:計算効率壁(「作業が細かすぎて非効率!」問題)

状況:
専門家ごとの計算量が小さすぎて、GPU という「巨大な工場」が空回りしてしまいます。また、CPU が「次の指示を出す」のに追いつかず、GPU が待たされることもあります。

  • 例え: 巨大な工場で、1 個ずつのネジを回す作業をさせている状態。機械が「ネジを掴む」「回す」「置く」を繰り返すだけで、本格的な生産(計算)ができていません。

解決策:

  • 一括処理(Grouped GEMM): 小さなネジ回し作業をまとめて、一度に大量に処理できるようにします。
  • 自動化(CUDA Graphs): 「指示を出す」作業を自動化し、CPU が待たされるのを防ぎます。
  • 負荷分散(ECHO): 特定の専門家に仕事が多すぎる場合、その専門家の「分身(クローン)」を別の場所に作って、仕事を分散させます。

3. 最大の特徴:「並列折りたたみ(Parallel Folding)」

これがこの論文の最大の「ひらめき」です。

従来のシステムでは、「Attention(文脈理解)」と「MoE(専門家)」という 2 つの異なる作業を、同じルール(並列化の仕方)でやらなければなりませんでした。

  • 例え: 「料理を作る人(Attention)」と「皿洗いをする人(MoE)」が、同じ人数のチームで動かなければならないため、どちらかが非効率になっていました。

Megatron Core の解決策:

  • 「料理」には「料理専用のチーム」を、「皿洗い」には「皿洗い専用のチーム」を、それぞれ最適な人数で組ませる!
  • これを**「並列折りたたみ」**と呼びます。これにより、それぞれの作業が最も効率的に動くようになり、全体のパフォーマンスが劇的に向上します。

4. 実際の成果:どれくらい速いのか?

この技術を使って、DeepSeek-V3(6850 億パラメータ)や Qwen3(2350 億パラメータ)といった超巨大モデルを学習させた結果は驚異的です。

  • GB300/GB200(最新 GPU): 1 台の GPU あたり、1,233 TFLOPS(1 秒間に 1 兆回以上の計算)を達成。
  • H100(前世代 GPU): 1,000 台規模のクラスターでも、安定して高速に学習可能。

これは、**「数年かかっていた学習が、数週間に短縮される」**レベルの進化です。


まとめ

この論文は、**「巨大な AI を作るには、単に計算機を増やせばいいわけではない。メモリ、通信、計算のバランスを、まるでオーケストラの指揮者のように完璧に調整する必要がある」**と教えています。

NVIDIA の Megatron Core は、その調整を自動化し、最適化する「楽譜」を提供しました。おかげで、研究者や企業は、何兆パラメータ級の AI を、より安く、より速く、より安定して作れるようになったのです。

一言で言えば:

「何千人もの専門家チームを、狭い部屋で、混雑する回線で、無駄なく動かすための『究極の運営マニュアル』」

これが、2026 年(論文の日付)の AI 開発を支える基盤技術です。