Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen ein riesiges, hochintelligentes Gehirn bauen, das so groß ist wie eine ganze Stadt. Dieses Gehirn soll nicht aus einem einzigen, riesigen Stein bestehen (wie ein herkömmlicher Computerchip), sondern aus vielen kleinen, spezialisierten Bausteinen, die zusammenarbeiten. Genau das ist das Ziel des neuen Projekts namens Mozart.

Hier ist die Erklärung des Papers in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der Stau im Verkehrsnetz

Moderne KI-Modelle (wie die, die Chatbots antreiben) nutzen eine Architektur namens "Mixture of Experts" (MoE).

Der Vergleich: Stellen Sie sich ein riesiges Bürogebäude vor. Anstatt dass jeder Mitarbeiter (ein "Experte") alles kann, gibt es Spezialisten: einen für Mathematik, einen für Geschichte, einen für Kochrezepte. Wenn eine Frage reinkommt, wird sie nur an die zwei oder drei passenden Spezialisten weitergeleitet. Das ist sehr effizient.
Das Problem: In der aktuellen Computerwelt ist dieser Prozess chaotisch. Die Spezialisten sitzen oft weit voneinander entfernt. Wenn eine Frage kommt, muss sie durch lange Gänge (Datenübertragung) zu den Spezialisten geschickt werden, die Antwort muss zurückkommen, und alle müssen sich abstimmen. Das erzeugt Staus, kostet viel Zeit und Energie, ähnlich wie wenn alle Autos in einer Stadt versuchen, gleichzeitig über eine einzige kleine Brücke zu fahren.

2. Die Lösung: Ein neuer Stadtplan (Mozart)

Die Forscher von Mozart haben eine neue Art gedacht, wie man dieses "Bürogebäude" baut und wie die Mitarbeiter darin arbeiten. Sie nennen es Co-Design, was bedeutet: Sie haben die Software (die Arbeitsweise) und die Hardware (das Gebäude) gleichzeitig neu erfunden.

A. Der neue Bauplan: Ein 3,5D-Wafer-Chiplet

Statt einen riesigen, flachen Chip zu nehmen, bauen sie eine Art 3D-Stadt.

Die Idee: Sie nutzen eine riesige Silizium-Wafer (eine Art riesige Platte), auf der sie viele kleine "Chiplets" (kleine Computer-Chips) wie Stadtviertel anordnen.
Die Struktur:
- Es gibt einen zentralen Verkehrsknoten (den "Attention"-Chip), der alle Fragen empfängt und entscheidet, wer sie bearbeitet.
- Die Spezialisten (die "Experten") sind in Gruppen um diesen Knoten herum angeordnet.
- Die Gebäude sind nicht nur nebeneinander, sondern auch ** übereinander gestapelt** (3D), damit die Daten sehr schnell von oben nach unten fließen können, wie in einem Hochhaus mit schnellen Aufzügen statt langen Treppen.

B. Die neue Arbeitsweise: Intelligente Zuteilung

Mozart ist nicht nur ein Gebäude, es ist auch ein kluger Manager.

Der Vergleich: In einem normalen Büro würden Sie zufällig entscheiden, wer wo sitzt. Mozart schaut sich an, welche Spezialisten oft zusammenarbeiten.
Die Strategie: Wenn der "Koch" und der "Landwirt" oft zusammenarbeiten müssen, setzt Mozart sie in dasselbe Bürogebäude (auf denselben Chip). So müssen sie keine langen E-Mails schreiben, sondern können einfach zur Tür hinübergehen. Das spart enorm viel Zeit.
Der "Streaming"-Effekt: Während ein Spezialist gerade arbeitet, lädt der Manager schon das nächste Paket für den nächsten Spezialisten herunter. Es ist wie ein gut getakteter Fließbandprozess, bei dem nie jemand warten muss.

3. Das Ergebnis: Schneller und schlanker

Die Forscher haben dieses System mit drei verschiedenen großen KI-Modellen getestet.

Das Ergebnis: Das Mozart-System war bis zu 2,4-mal schneller als herkömmliche Methoden.
Warum? Weil weniger Zeit mit dem "Hin und Her-Schicken" von Daten verschwendet wird und die Computer-Ressourcen viel besser ausgelastet sind. Es ist, als würde man den Stau in der Stadt beseitigen, indem man die Straßen breiter macht, die Ampeln cleverer schaltet und die Leute dorthin setzt, wo sie gebraucht werden.

Zusammenfassung in einem Satz

Mozart ist wie ein genialer Architekt und Verkehrsplaner in einem: Er baut ein hochmodernes, mehrstöckiges Rechenzentrum aus vielen kleinen Modulen und organisiert die Arbeit so, dass die KI-Spezialisten immer genau dort sind, wo sie gebraucht werden, und nie im Stau stehen.

Das Ziel ist es, die nächste Generation von super-intelligenten KI-Modellen nicht nur leistungsfähiger, sondern auch energieeffizienter und schneller zu trainieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures" auf Deutsch:

1. Problemstellung

Mixture-of-Experts (MoE) Architekturen haben sich als effiziente Lösung für Large Language Models (LLMs) etabliert, da sie durch modulare Berechnungen eine massive Skalierung der Parameterzahl ohne proportionale Erhöhung der Rechenkosten ermöglichen. Dennoch stellen MoE-LLMs erhebliche Herausforderungen für herkömmliche Hardware-Plattformen (wie GPUs) dar:

Speicherlokalität: Die dynamische Aktivierung spezialisierter Subnetzwerke führt zu ineffizienten Speicherzugriffen.
Kommunikations-Overhead: Der „All-to-All"-Datenaustausch zwischen Parallelisierungseinheiten ist ein Engpass, der durch die inhärente Sparsity der Modelle verschärft wird.
Ressourcennutzung: Herkömmliche Architekturen nutzen die Rechenressourcen aufgrund ungleichmäßiger Arbeitslasten oft ineffizient aus.
Skalierbarkeit: Monolithische Chips stoßen an physikalische Grenzen (Fotolithografie, Transistor-Skalierung), während bestehende Chiplet-Ansätze oft nur grobe, statische Arbeitslast-Partitionierung ohne systemweite Koordination bieten.

2. Methodik: Das Mozart-Framework

Mozart ist ein Algorithm-Hardware-Co-Design-Framework, das speziell für das Training von MoE-LLMs auf 3.5D Wafer-Scale Chiplet-Architekturen entwickelt wurde. Der Ansatz verbindet algorithmische Optimierungen mit einer spezialisierten Hardware-Architektur.

A. Algorithmische Seite (Software-Optimierung)

Experten-Clustering und -Allokation:
- Basierend auf empirischen Profildaten (z. B. aus dem Alpaca-Datensatz) werden Experten nicht zufällig, sondern nach ihrem Aktivierungsverhalten gruppiert.
- Clustering: Experten, die häufig gemeinsam aktiviert werden (Co-Activation), werden in Clustern zusammengefasst, um die interne Zusammenarbeit zu maximieren und die externe Kommunikation zu minimieren.
- Allokation: Diese Cluster werden so auf Chiplets verteilt, dass die Arbeitslast über die Chiplet-Gruppen hinweg ausgeglichen wird. Dies reduziert den Datenvolumen für die All-to-All-Kommunikation, da weniger Replikationen von Token zwischen Chiplets notwendig sind.
Feingranulares Scheduling (Streaming):
- Um den Overhead durch DRAM-Kommunikation zu überlappen, werden Token und Experten gestreamt.
- Token-Streaming: Der globale Token-Batch wird in Mikro-Batches zerlegt, um Berechnung und DRAM-Zugriffe (z. B. für das Speichern von Aktivierungen im Backward-Pass) zu überlappen.
- Experten-Streaming: Die Reihenfolge des Ladens von Experten-Clustern wird basierend auf ihrer Arbeitslast priorisiert. Hochaktivierte Cluster werden zuerst geladen, um Engpässe zu vermeiden.

B. Hardware-Seite (Chiplet-Architektur)

Mozart nutzt eine 3.5D Wafer-Scale Architektur, die folgende Komponenten integriert:

3D Logic-on-Memory Stacks: Jedes Rechen-Chiplet besteht aus einer vertikal gestapelten Struktur (Hybrid Bonding) aus einer Logik-Die und einer SRAM-Die. Dies ermöglicht schnellen Zugriff auf häufig genutzte Aktivierungen und reduziert Latenzen im Vergleich zu 2D-Designs.
2.5D NoP-Tree Topologie (Network-on-Package):
- Die Chiplets sind in einer baumartigen Topologie verbunden.
- Attention-Chiplets fungieren als zentrale Dispatch-Knoten (nahe dem DRAM für hohen Bandbreitenbedarf).
- Expert-Chiplets sind als Blattknoten angeordnet und führen die FFN-Berechnungen durch.
- Switch-Module: Diese besitzen In-Network-Compute-Fähigkeiten, um MoE-Ausgaben lokal zu aggregieren und den Datentransfer zwischen Chiplets zu minimieren.
Hierarchische Speicherstruktur:
- Modellgewichte werden in off-chip DRAM gespeichert (da sie statisch sind).
- Temporäre Aktivierungen werden im lokalen SRAM der Chiplets gecacht.

3. Schlüsselbeiträge

Co-Design-Ansatz: Mozart ist das erste Framework, das die logische Modularität von MoE-Modellen direkt mit der physischen Modularität von Wafer-Scale Chiplets abstimmt.
Optimierte Experten-Platzierung: Durch die Nutzung von Co-Activation-Mustern wird die All-to-All-Kommunikation signifikant reduziert.
Spezialisierte Hardware: Die Einführung einer 3.5D-Architektur mit NoP-Tree und Logic-on-Memory adressiert spezifische Engpässe bei MoE-Workloads (Speicherlokalität und Kommunikationslatenz).
Feingranulares Scheduling: Ein neuartiges Streaming-Konzept, das Kommunikation und Berechnung effektiv überlappt.

4. Ergebnisse

Die Evaluation wurde an drei populären Open-Source MoE-Modellen durchgeführt: Qwen3-30B-A3B, OLMoE-1B-7B-0924 und DeepSeek-MoE-16B-Base.

Beschleunigung: Mozart erzielt im Vergleich zu Baseline-Methoden (ohne Optimierungen) eine Beschleunigung von 1,92× bis 2,37× (je nach Modell).
- Qwen3-30B-A3B: 1,92×
- OLMoE-1B-7B-0924: 2,37×
- DeepSeek-MoE-16B-Base: 2,17×
Kommunikationseffizienz: Die All-to-All-Kommunikationskomplexität ( $C_T$ ) wurde durch die optimierte Expertenplatzierung signifikant gesenkt (z. B. von 8 auf 4,32 bei DeepSeek-MoE).
Robustheit: Die Leistungsvorteile bleiben auch bei längeren Sequenzen (bis 512 Tokens) und unterschiedlichen Speicherbandbreiten (SSD vs. HBM2) erhalten, wobei die Vorteile bei HBM2 noch ausgeprägter sind.
Analyse: Das System ist primär speichergebunden (memory-bound) aufgrund der sequenziellen Notwendigkeit, Gewichte aus dem DRAM zu streamen, was durch die Co-Design-Strategien jedoch optimal bewältigt wird.

5. Bedeutung und Ausblick

Mozart demonstriert, dass die Kombination aus algorithmischer Intelligenz (Nutzung von Aktivierungsmustern) und fortschrittlicher Hardware-Architektur (Wafer-Scale Chiplets) entscheidend ist, um die Skalierbarkeit von MoE-LLMs zu überwinden.

Skalierbarkeit: Der Ansatz bietet einen Weg, um Modelle mit Billionen von Parametern effizient zu trainieren, ohne an die Grenzen monolithischer Chips zu stoßen.
Zukunft: Die Arbeit legt den Grundstein für die effiziente Nach-Training-Deployment (Post-Training) modularer Modelle.
Limitationen: Aktuelle Limitationen umfassen die Zuweisung von Attention-Modulen zu einzelnen Chiplets (was Ressourcen begrenzen kann) und potenzielle Engpässe bei den Switch-Modulen unter extrem hohem Kommunikationsbedarf.

Zusammenfassend bietet Mozart einen vielversprechenden Pfad zur Überwindung der Hardware-Hürden für die nächste Generation von effizienten, modularen KI-Modellen.