Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum sind manche KI-Modelle beim Rechnen besser als andere?

Stell dir vor, du baust ein riesiges Team von Spezialisten, um eine schwierige Aufgabe zu lösen. In der Welt der Künstlichen Intelligenz (KI) nennen wir dieses Team ein "Mixture-of-Experts" (MoE) Modell.

Das Prinzip ist einfach: Anstatt dass ein einziger riesiger Kopf (ein "dichtes" Modell) alles selbst machen muss, hast du ein riesiges Büro mit hunderten von kleinen Experten. Wenn eine Frage reinkommt, schaut ein Manager (der "Router") hin und ruft nur die wenigsten Experten, die dafür zuständig sind, um die Frage zu beantworten. Der Rest des Büros bleibt untätig. Das spart enorm viel Energie und Zeit.

Die Forscher in diesem Papier haben sich gefragt: Wie viele Experten sollten wir eigentlich rufen, damit das Team am besten funktioniert? Und die Antwort ist überraschend: Es kommt ganz darauf an, was das Team tun soll.

1. Der Unterschied zwischen "Auswendiglernen" und "Nachdenken"

Die Forscher haben zwei Arten von Aufgaben getestet:

Das Auswendiglernen (Memorization): Stell dir vor, du musst ein riesiges Telefonbuch auswendig lernen oder Fakten aus dem Geschichtsbuch wiedergeben.
- Das Ergebnis: Hier ist es super, wenn du viele Experten hast, aber nur wenige davon pro Frage aktivierst. Das ist wie ein riesiges Archiv. Je mehr Regale (Experten) du hast, desto besser findest du die Information. Es ist "parameternhungrig".
Das Nachdenken (Reasoning): Stell dir vor, du musst eine komplexe Matheaufgabe lösen oder einen Code schreiben. Das erfordert logisches Denken und Schritte zu planen.
- Das Ergebnis: Hier funktioniert das "wenige Experten"-Prinzip plötzlich nicht mehr gut! Wenn du zu viele Experten im Büro hast, aber nur zwei davon arbeitest, wird das Team verwirrt. Die Experten bekommen zu wenig Daten, um das komplexe Problem zu verstehen. Hier braucht man eher ein dichtes Team, bei dem mehr Experten gleichzeitig mitarbeiten.

2. Die zwei goldenen Regeln der Forscher

Die Autoren haben zwei wichtige Gesetze entdeckt, die man sich wie eine Waage vorstellen kann:

Regel 1: Die "Aktive Arbeitskraft" (Active FLOPs)
Es reicht nicht, nur ein großes Büro zu haben. Es zählt, wie viele Hände tatsächlich am Werk sind.

Die Analogie: Stell dir vor, du hast 100 Handwerker, aber du lässt nur 2 arbeiten. Egal wie groß das Büro ist, du wirst die Brücke nicht schnell bauen. Wenn du aber 20 Handwerker gleichzeitig arbeiten lässt (auch wenn das Büro kleiner ist), bekommst du ein besseres Ergebnis beim Bauen (Rechnen).
Fazit: Für schwierige Aufgaben (wie Mathe) müssen mehr Experten gleichzeitig aktiv sein, auch wenn das Modell insgesamt kleiner ist.

Regel 2: Das "Daten-zu-Personen-Verhältnis" (Tokens per Parameter)
Wie viel "Nahrung" (Daten) bekommt jeder Experte?

Die Analogie: Stell dir vor, du hast 100 Schüler und nur 10 Bücher. Jeder Schüler bekommt nur ein paar Seiten zu lesen. Sie werden nichts verstehen. Wenn du aber nur 10 Schüler hast und 100 Bücher, kann jeder Schüler ein ganzes Buch lesen und wird ein Experte.
Fazit:
- Beim Auswendiglernen wollen wir viele Schüler (Parameter) und wenig Bücher. Sie müssen einfach nur Fakten speichern.
- Beim Nachdenken wollen wir, dass jeder Schüler viel liest. Wenn es zu viele Schüler für zu wenige Bücher gibt, werden die "Denker" dumm, weil sie nicht genug gelernt haben. Die Forscher fanden heraus, dass das perfekte Verhältnis etwa 20 Wörter pro Schüler ist.

3. Warum "Nachträgliches Lernen" (Post-Training) das Problem nicht löst

Man könnte denken: "Okay, das Modell ist beim Rechnen schlecht. Trainieren wir es einfach noch mal extra mit Belohnungen (Reinforcement Learning) oder lassen wir es länger nachdenken (Test-Time Compute), bis es besser wird."

Die Forscher haben das ausprobiert. Das Ergebnis? Es bringt nichts.

Die Analogie: Wenn du ein Auto mit einem schwachen Motor hast, kannst du noch so viel Benzin (Rechenleistung beim Nachdenken) oder einen besseren Fahrer (extra Training) nehmen – das Auto wird trotzdem nicht schneller als ein Auto mit einem starken Motor.
Die Schwäche im "Denken" ist im Design des Modells (wie viele Experten aktiv sind) fest verankert. Man kann das nicht einfach nachträglich reparieren.

4. Was bedeutet das für die Zukunft?

Bisher dachten die KI-Forscher: "Je größer das Modell, desto besser."
Diese Arbeit sagt: "Nein, das ist zu einfach gedacht."

Wenn du eine KI bauen willst, die Fakten kennt (wie ein Lexikon), mach sie sehr groß und spärlich (viele Experten, wenige aktiv).
Wenn du eine KI bauen willst, die denken kann (wie ein Mathematiker), musst du sie etwas "dichter" machen (mehr Experten gleichzeitig aktiv) und sicherstellen, dass sie genug Daten pro Person bekommt.

Es gibt keinen "Einheitsgriffel" für alle KI-Modelle. Man muss das Design genau auf die Aufgabe zuschneiden. Wer das ignoriert, baut zwar riesige Modelle, die aber beim Lösen von Problemen versagen.

Zusammengefasst:
Ein riesiges Team mit wenigen aktiven Mitgliedern ist toll für das Auswendiglernen. Aber wenn es darum geht, komplexe Probleme zu lösen, braucht man ein Team, bei dem mehr Köpfe gleichzeitig arbeiten und jeder genug Informationen bekommt. Die Kunst liegt darin, das richtige Gleichgewicht zu finden.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Evolution von Large Language Models (LLMs) wird derzeit maßgeblich durch empirische Skalierungsgesetze angetrieben, die den Zusammenhang zwischen Trainingsverlust, Modellgröße, Datengröße und Rechenbudget beschreiben. Diese Gesetze wurden jedoch primär für dichte Transformer-Architekturen entwickelt. Moderne State-of-the-Art-Modelle nutzen zunehmend Mixture-of-Experts (MoE)-Architekturen, die durch Routing jedes Tokens durch eine spärliche Teilmenge von Experten (Experten) eine hohe Kapazität bei festen Rechenkosten (FLOPs) ermöglichen.

Das zentrale Problem, das dieses Paper adressiert, ist die Unklarheit darüber, wie sich die Sparsity (Verdünnung) von MoE-Modellen auf unterschiedliche Fähigkeitsbereiche auswirkt:

Memorization (Auswendiglernen): Aufgaben wie Faktenwissen oder Leseverständnis.
Reasoning (Schlussfolgern): Komplexe Aufgaben wie mathematisches Lösen oder Code-Generierung.

Bisherige Ansätze gehen oft davon aus, dass eine höhere Sparsity (mehr Experten bei gleicher aktiver Parameterzahl) immer vorteilhaft ist, um die Kapazität zu maximieren. Die Autoren untersuchen jedoch, ob dies auch für reasoning-basierte Aufgaben gilt oder ob hier ein anderer Optimalpunkt existiert, der von klassischen Skalierungsgesetzen übersehen wird.

Methodik

Die Autoren führten eine systematische empirische Untersuchung durch, bei der sie Familien von MoE-Modellen (basierend auf der Mixtral-Architektur) trainierten und evaluierten.

Architektur-Variation: Sie variierten drei Haupt-Hyperparameter:
- Modellbreite ( $d \in \{512, 1024, 2048\}$ ).
- Anzahl der Experten pro Schicht ( $E \in \{8, \dots, 256\}$ ).
- Anzahl der top-k Experten pro Token ( $k \in \{2, 4, 8, 16\}$ ).
Kontrollierte Bedingungen: Alle Modelle wurden unter einem festen Rechenbudget trainiert. Dies ermöglichte die Untersuchung von Iso-FLOP-Konturen (gleiche Rechenleistung, unterschiedliche Sparsity).
Datensatz: Ein 125-Billion-Token-Korpus, bestehend aus hochwertigem Webtext, Mathematik-Korpora, STEM-Literatur und Code.
Evaluierte Aufgaben:
- Memorization: TriviaQA, HellaSwag.
- Reasoning: GSM8K, GSM-Plus (Mathematik), HumanEval, MBPP (Code).
Post-Training & Test-Time Compute (TTC): Um zu prüfen, ob nachgelagerte Techniken die gefundenen Trends ändern, wurden Reinforcement Learning (GRPO) und Test-Time Compute (Self-Consistency) angewendet.

Wichtige Beiträge und Erkenntnisse

Die Studie entwirrt den Zusammenhang zwischen Trainingsverlust und downstream-Accuracy und identifiziert zwei fundamentale Prinzipien für MoE-Modelle:

1. Aktive FLOPs bestimmen die Reasoning-Leistung

Ein überraschendes Ergebnis ist, dass Modelle mit identischem Trainingsverlust aber unterschiedlicher Sparsity (unterschiedliches $k$ ) signifikant unterschiedliche Reasoning-Ergebnisse erzielen.

Modelle mit einem höheren $k$ (mehr aktive Experten pro Token) schneiden bei Reasoning-Aufgaben besser ab, selbst wenn der Trainingsverlust gleich ist.
Dies zeigt, dass die reine Trainingsverlust-Metrik für Reasoning unzureichend ist; die Anzahl der aktiven FLOPs (sowohl beim Training als auch beim Inference) ist der entscheidende Faktor für die Schlussfolgerungsfähigkeit.

2. Total Tokens per Parameter (TPP) und die „Data-Hungry"-Natur des Reasonings

Die Autoren analysieren das Verhältnis von Trainings-Token zu Gesamt-Parametern (TPP):

Memorization: Ist „parameter-hungrig". Die Leistung verbessert sich monoton mit mehr Parametern (niedriger TPP). Hier profitieren spärlichere Modelle (mehr Experten) von der erhöhten Kapazität.
Reasoning: Ist „datenhungrig". Die Leistung folgt einer nicht-monotonen (U-förmigen) Kurve.
- Es gibt einen optimalen TPP-Wert von ca. 20 Tokens pro Parameter.
- Ist der TPP zu niedrig (zu viele Parameter im Verhältnis zu den Daten), wird das Modell „daten-verhungert" (data-starved), da die Daten auf zu viele Experten verteilt werden.
- Ist der TPP zu hoch (zu wenige Parameter), ist das Modell unterparametrisiert.
- Fazit: Bei Reasoning-Aufgaben führt eine übermäßige Erhöhung der Sparsity (bei festem Budget) oft zu einer Verschlechterung der Leistung, da die einzelnen Experten nicht genug Daten erhalten, um komplexe Muster zu lernen.

3. Invarianz gegenüber Post-Training und TTC

Die Autoren untersuchten, ob Techniken wie GRPO (Reinforcement Learning) oder Test-Time Compute (z. B. Self-Consistency) die durch suboptimale Sparsity verursachten Leistungseinbußen bei Reasoning-Aufgaben kompensieren können.

Ergebnis: Nein. Weder GRPO noch erhöhter Test-Time Compute können den „Trade-off" beseitigen. Der negative Effekt einer zu hohen Sparsity auf Reasoning bleibt bestehen.
Implikation: Die optimale Sparsity muss zwingend bereits während des Pre-Trainings bestimmt werden. Nachträgliche Optimierungen können die architektonischen Grenzen nicht überwinden.

Ergebnisse im Detail

Memorization (TriviaQA, HellaSwag): Die Leistung verbessert sich kontinuierlich mit steigender Sparsity (mehr Experten), da mehr Parameterkapazität direkt zu besserem Faktenwissen führt.
Reasoning (GSM8K, Code): Die Leistung zeigt einen invertierten U-förmigen Trend.
- Bei niedrigen Rechenbudgets hilft Sparsity.
- Bei hohen Rechenbudgets (große aktive Parameterzahl) kehrt sich der Trend um: Dichtere Konfigurationen (niedrigere Sparsity, höheres $k$ ) übertreffen spärliche Modelle, da sie eine bessere Balance zwischen Kapazität und Datendichte pro Parameter bieten.
Generalisierungslücke: Die Diskrepanz zwischen Trainingsverlust und Reasoning-Accuracy wird durch die Sparsity verursacht und nicht nur durch Hyperparameter wie Lernrate (obwohl diese ebenfalls eine Rolle spielen).

Bedeutung und Implikationen

Diese Arbeit revidiert das klassische Bild der „compute-optimalen Skalierung" für MoE-Modelle:

Neue Skalierungsgesetze: Für Reasoning-Aufgaben reicht es nicht aus, einfach mehr Parameter hinzuzufügen. Stattdessen muss ein Gleichgewicht zwischen aktiven FLOPs und Tokens pro Parameter (TPP) gefunden werden.
Architekturentscheidungen: In Hoch-Rechen-Budget-Szenarien (High-Compute Regimes) sollten MoE-Modelle für Reasoning-Aufgaben tendenziell dichter konfiguriert werden (höheres $k$ , weniger extreme Sparsity), um sicherzustellen, dass die Experten ausreichend trainiert werden.
Praxisrelevanz: Da moderne Frontier-Modelle (wie DeepSeek, Qwen, Gemini) auf MoE setzen, liefert diese Arbeit einen Leitfaden, wie diese Modelle für komplexe Schlussfolgerungsaufgaben optimal gestaltet werden müssen, anstatt blind nach maximaler Sparsity zu streben.

Zusammenfassend zeigt das Paper, dass Reasoning-Fähigkeiten nicht linear mit der Modellkapazität skalieren, sondern stark von der Effizienz der Datennutzung pro Parameter abhängen. Die optimale Sparsity ist somit keine universelle Konstante, sondern eine Funktion der Aufgabe (Memorization vs. Reasoning) und des verfügbaren Daten- und Rechenbudgets.