Scalable Training of Mixture-of-Experts Models with Megatron Core

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Veröffentlicht Tue, 10 Ma

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen eine riesige Bibliothek, in der nicht jeder Buchhalter jedes Buch lesen muss. Stattdessen gibt es Tausende von spezialisierten Experten (die "Experten" im MoE-Modell). Wenn ein Besucher eine Frage stellt, wird sie nur an die wenigen Experten geschickt, die wirklich Ahnung davon haben. Das ist extrem effizient, aber es bringt auch ein riesiges logistisches Problem mit sich: Wie koordiniert man Tausende von Experten, damit sie nicht alle gleichzeitig anrufen, wie man sie schnell findet und wie man sicherstellt, dass niemand überlastet ist, während andere faulenzen?

Genau dieses Problem löst die NVIDIA-Studie über Megatron Core für Mixture-of-Experts (MoE) Modelle. Hier ist die Erklärung, wie sie das schaffen, ohne in technischen Fachbegriffen zu ertrinken:

1. Das Grundproblem: Der "Dichte-Spalten"-Konflikt

In normalen KI-Modellen (dichte Modelle) arbeiten alle Teile gleichzeitig. Das ist wie ein Orchester, bei dem alle Musiker gleichzeitig spielen.
In MoE-Modellen ist es wie ein riesiges Call-Center mit 1.000 Spezialisten. Ein Anruf (ein Token) geht nur an 2 oder 3 von ihnen.

Das Problem: Das System muss Platz für alle 1.000 Experten im Speicher haben (weil man nie weiß, wer gerade angerufen wird), aber die Rechenarbeit wird nur von wenigen geleistet. Das führt zu drei großen "Wänden", an denen das System scheitern könnte:
1. Die Speicher-Wand: Der Speicherplatz reicht nicht für alle Experten.
2. Die Kommunikations-Wand: Die Experten müssen sich ständig abstimmen (wer macht was?), was Zeit kostet.
3. Die Rechen-Wand: Die Computerchips warten oft auf neue Aufträge, weil die Aufgaben so klein und zerstreut sind.

2. Die Lösung: "Parallel Folding" (Das Falt-Prinzip)

Früher musste das ganze Orchester (die Aufmerksamkeitsschichten) und das Call-Center (die Experten) die gleiche Aufteilung der Musiker haben. Das war ineffizient.
Megatron Core führt Parallel Folding ein. Stellen Sie sich vor, Sie haben zwei verschiedene Teams in einer Fabrik:

Team A (Aufmerksamkeit) braucht große, breite Arbeitsbänke.
Team B (Experten) braucht viele kleine, spezialisierte Werkbänke.
Früher musste man beide Teams in die gleiche Halle drängen. Parallel Folding erlaubt es, die Halle so zu falten und zu teilen, dass Team A seine großen Bänke bekommt und Team B seine vielen kleinen Werkbänke, ohne sich gegenseitig im Weg zu stehen. Jeder arbeitet in seinem optimalen Umfeld.

3. Die drei Wände durchbrechen

🧱 Die Speicher-Wand: "Nur das Nötigste mitnehmen"

Stellen Sie sich vor, Sie packen für einen langen Urlaub. Früher haben Sie alles mitgenommen, auch wenn Sie es vielleicht nie brauchen.

Die Lösung: Megatron Core packt nur das Nötigste ein.
- Wiederverwendung: Statt alles im Koffer (Speicher) zu behalten, wird es weggeworfen und bei Bedarf neu berechnet (wie wenn Sie ein Rezept online nachschauen, statt es auswendig zu lernen).
- Komprimierung: Sie nutzen kleinere Koffer (FP8/FP4), die weniger Platz brauchen, aber trotzdem alles enthalten.
- Auslagern: Wenn der Koffer voll ist, wird der Rest in den Kofferraum (den Arbeitsspeicher des Computers) gelegt und nur geholt, wenn es wirklich nötig ist.

📡 Die Kommunikations-Wand: "Der Express-Kurier"

Wenn die Experten sich abstimmen müssen, war das früher wie ein langsamer Briefwechsel zwischen verschiedenen Städten.

Die Lösung: Megatron Core nutzt DeepEP und HybridEP.
- Stellen Sie sich vor, statt Briefe zu schreiben, schicken Sie einen Kurier, der alle Pakete auf einmal nimmt und sie direkt an die richtigen Türen bringt.
- Überlappung: Während der Kurier unterwegs ist, arbeiten die Experten bereits am nächsten Auftrag. Die Kommunikation läuft im Hintergrund, während die Arbeit erledigt wird. Niemand wartet untätig.

⚙️ Die Rechen-Wand: "Keine Wartezeiten"

Früher mussten die Computerchips oft warten, bis der Chef (der Prozessor) ihnen einen neuen Auftrag gab. Bei MoE gab es so viele kleine Aufträge, dass der Chef kaum hinterherkam.

Die Lösung: CUDA Graphs und Fusion.
- Der Film: Statt jeden einzelnen Schritt neu zu planen, wird ein ganzer Film (ein Graph) aufgenommen. Der Computer spielt diesen Film einfach ab, ohne dass der Chef jedes Mal eingreifen muss.
- Bündelung: Viele kleine Aufgaben werden zu einer großen Aufgabe zusammengefasst, damit der Computer effizienter arbeitet (wie wenn man 10 kleine Briefe in einen großen Umschlag packt, statt 10 mal den Briefkasten zu öffnen).

4. Warum ist das wichtig?

Dank dieser Tricks kann NVIDIA Modelle trainieren, die so groß sind wie DeepSeek-V3 (685 Milliarden Parameter) oder Qwen3 (235 Milliarden Parameter).

Das Ergebnis: Diese Modelle lernen extrem schnell. Auf den neuesten NVIDIA-Chips (GB200/GB300) erreichen sie eine Geschwindigkeit, die fast 3-mal so hoch ist wie auf älteren Chips.
Für die Zukunft: Das System ist so flexibel, dass es auch mit sehr langen Texten (wie ganze Bücher auf einmal) oder in der Robotik (Reinforcement Learning) funktioniert, wo sich die Aufgaben ständig ändern.

Zusammenfassung in einem Satz

Megatron Core ist wie ein genialer Logistikmanager, der für eine riesige, spezialisierte KI-Fabrik die Lagerplätze neu organisiert, die Kurierdienste beschleunigt und die Arbeitsabläufe so strafft, dass die Maschinen nie warten müssen – und das alles, ohne dass die Fabrik in sich zusammenfällt.

Das Paper zeigt also nicht nur, dass man riesige KI-Modelle bauen kann, sondern wie man sie effizient, schnell und ohne die Hardware zu sprengen, zum Laufen bringt.

Scalable Training of Mixture-of-Experts Models with Megatron Core

1. Das Grundproblem: Der "Dichte-Spalten"-Konflikt

2. Die Lösung: "Parallel Folding" (Das Falt-Prinzip)

3. Die drei Wände durchbrechen

🧱 Die Speicher-Wand: "Nur das Nötigste mitnehmen"

📡 Die Kommunikations-Wand: "Der Express-Kurier"

⚙️ Die Rechen-Wand: "Keine Wartezeiten"

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

Titel: Skalierbares Training von Mixture-of-Experts-Modellen mit Megatron Core

1. Problemstellung: Die „Drei Wände" des MoE-Trainings

2. Methodik und Architektur: Megatron-Core MoE

A. Parallelismus und Parallel Folding

B. Durchbrechen der Speicherwand

C. Durchbrechen der Kommunikationswand

D. Durchbrechen der Effizienz-Wand

E. Reduzierte Präzision (FP8/FP4)

F. Lange Kontexte und RL

3. Wichtige Ergebnisse

4. Bedeutung und Fazit

Scalable Training of Mixture-of-Experts Models with Megatron Core

1. Das Grundproblem: Der "Dichte-Spalten"-Konflikt

2. Die Lösung: "Parallel Folding" (Das Falt-Prinzip)

3. Die drei Wände durchbrechen

🧱 Die Speicher-Wand: "Nur das Nötigste mitnehmen"

📡 Die Kommunikations-Wand: "Der Express-Kurier"

⚙️ Die Rechen-Wand: "Keine Wartezeiten"

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

Titel: Skalierbares Training von Mixture-of-Experts-Modellen mit Megatron Core

1. Problemstellung: Die „Drei Wände" des MoE-Trainings

2. Methodik und Architektur: Megatron-Core MoE

A. Parallelismus und Parallel Folding

B. Durchbrechen der Speicherwand

C. Durchbrechen der Kommunikationswand

D. Durchbrechen der Effizienz-Wand

E. Reduzierte Präzision (FP8/FP4)

F. Lange Kontexte und RL

3. Wichtige Ergebnisse

4. Bedeutung und Fazit

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models