Scalable Training of Mixture-of-Experts Models with Megatron Core

Dieser Bericht stellt das Megatron Core-Framework vor, das durch integrierte Optimierungen in den Bereichen Speicher, Kommunikation und Berechnung sowie Unterstützung für parallele Verfahren und niedrige Präzision das skalierbare Training von Mixture-of-Experts-Modellen auf Tausenden von GPUs ermöglicht und dabei hohe Rechenleistung auf NVIDIA-Hardware erreicht.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen eine riesige Bibliothek, in der nicht jeder Buchhalter jedes Buch lesen muss. Stattdessen gibt es Tausende von spezialisierten Experten (die "Experten" im MoE-Modell). Wenn ein Besucher eine Frage stellt, wird sie nur an die wenigen Experten geschickt, die wirklich Ahnung davon haben. Das ist extrem effizient, aber es bringt auch ein riesiges logistisches Problem mit sich: Wie koordiniert man Tausende von Experten, damit sie nicht alle gleichzeitig anrufen, wie man sie schnell findet und wie man sicherstellt, dass niemand überlastet ist, während andere faulenzen?

Genau dieses Problem löst die NVIDIA-Studie über Megatron Core für Mixture-of-Experts (MoE) Modelle. Hier ist die Erklärung, wie sie das schaffen, ohne in technischen Fachbegriffen zu ertrinken:

1. Das Grundproblem: Der "Dichte-Spalten"-Konflikt

In normalen KI-Modellen (dichte Modelle) arbeiten alle Teile gleichzeitig. Das ist wie ein Orchester, bei dem alle Musiker gleichzeitig spielen.
In MoE-Modellen ist es wie ein riesiges Call-Center mit 1.000 Spezialisten. Ein Anruf (ein Token) geht nur an 2 oder 3 von ihnen.

  • Das Problem: Das System muss Platz für alle 1.000 Experten im Speicher haben (weil man nie weiß, wer gerade angerufen wird), aber die Rechenarbeit wird nur von wenigen geleistet. Das führt zu drei großen "Wänden", an denen das System scheitern könnte:
    1. Die Speicher-Wand: Der Speicherplatz reicht nicht für alle Experten.
    2. Die Kommunikations-Wand: Die Experten müssen sich ständig abstimmen (wer macht was?), was Zeit kostet.
    3. Die Rechen-Wand: Die Computerchips warten oft auf neue Aufträge, weil die Aufgaben so klein und zerstreut sind.

2. Die Lösung: "Parallel Folding" (Das Falt-Prinzip)

Früher musste das ganze Orchester (die Aufmerksamkeitsschichten) und das Call-Center (die Experten) die gleiche Aufteilung der Musiker haben. Das war ineffizient.
Megatron Core führt Parallel Folding ein. Stellen Sie sich vor, Sie haben zwei verschiedene Teams in einer Fabrik:

  • Team A (Aufmerksamkeit) braucht große, breite Arbeitsbänke.
  • Team B (Experten) braucht viele kleine, spezialisierte Werkbänke.
    Früher musste man beide Teams in die gleiche Halle drängen. Parallel Folding erlaubt es, die Halle so zu falten und zu teilen, dass Team A seine großen Bänke bekommt und Team B seine vielen kleinen Werkbänke, ohne sich gegenseitig im Weg zu stehen. Jeder arbeitet in seinem optimalen Umfeld.

3. Die drei Wände durchbrechen

🧱 Die Speicher-Wand: "Nur das Nötigste mitnehmen"

Stellen Sie sich vor, Sie packen für einen langen Urlaub. Früher haben Sie alles mitgenommen, auch wenn Sie es vielleicht nie brauchen.

  • Die Lösung: Megatron Core packt nur das Nötigste ein.
    • Wiederverwendung: Statt alles im Koffer (Speicher) zu behalten, wird es weggeworfen und bei Bedarf neu berechnet (wie wenn Sie ein Rezept online nachschauen, statt es auswendig zu lernen).
    • Komprimierung: Sie nutzen kleinere Koffer (FP8/FP4), die weniger Platz brauchen, aber trotzdem alles enthalten.
    • Auslagern: Wenn der Koffer voll ist, wird der Rest in den Kofferraum (den Arbeitsspeicher des Computers) gelegt und nur geholt, wenn es wirklich nötig ist.

📡 Die Kommunikations-Wand: "Der Express-Kurier"

Wenn die Experten sich abstimmen müssen, war das früher wie ein langsamer Briefwechsel zwischen verschiedenen Städten.

  • Die Lösung: Megatron Core nutzt DeepEP und HybridEP.
    • Stellen Sie sich vor, statt Briefe zu schreiben, schicken Sie einen Kurier, der alle Pakete auf einmal nimmt und sie direkt an die richtigen Türen bringt.
    • Überlappung: Während der Kurier unterwegs ist, arbeiten die Experten bereits am nächsten Auftrag. Die Kommunikation läuft im Hintergrund, während die Arbeit erledigt wird. Niemand wartet untätig.

⚙️ Die Rechen-Wand: "Keine Wartezeiten"

Früher mussten die Computerchips oft warten, bis der Chef (der Prozessor) ihnen einen neuen Auftrag gab. Bei MoE gab es so viele kleine Aufträge, dass der Chef kaum hinterherkam.

  • Die Lösung: CUDA Graphs und Fusion.
    • Der Film: Statt jeden einzelnen Schritt neu zu planen, wird ein ganzer Film (ein Graph) aufgenommen. Der Computer spielt diesen Film einfach ab, ohne dass der Chef jedes Mal eingreifen muss.
    • Bündelung: Viele kleine Aufgaben werden zu einer großen Aufgabe zusammengefasst, damit der Computer effizienter arbeitet (wie wenn man 10 kleine Briefe in einen großen Umschlag packt, statt 10 mal den Briefkasten zu öffnen).

4. Warum ist das wichtig?

Dank dieser Tricks kann NVIDIA Modelle trainieren, die so groß sind wie DeepSeek-V3 (685 Milliarden Parameter) oder Qwen3 (235 Milliarden Parameter).

  • Das Ergebnis: Diese Modelle lernen extrem schnell. Auf den neuesten NVIDIA-Chips (GB200/GB300) erreichen sie eine Geschwindigkeit, die fast 3-mal so hoch ist wie auf älteren Chips.
  • Für die Zukunft: Das System ist so flexibel, dass es auch mit sehr langen Texten (wie ganze Bücher auf einmal) oder in der Robotik (Reinforcement Learning) funktioniert, wo sich die Aufgaben ständig ändern.

Zusammenfassung in einem Satz

Megatron Core ist wie ein genialer Logistikmanager, der für eine riesige, spezialisierte KI-Fabrik die Lagerplätze neu organisiert, die Kurierdienste beschleunigt und die Arbeitsabläufe so strafft, dass die Maschinen nie warten müssen – und das alles, ohne dass die Fabrik in sich zusammenfällt.

Das Paper zeigt also nicht nur, dass man riesige KI-Modelle bauen kann, sondern wie man sie effizient, schnell und ohne die Hardware zu sprengen, zum Laufen bringt.