Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Die Studie zeigt, dass für Mixture-of-Experts-Modelle die optimale Sparsamkeit nicht allein durch den Trainingsverlust bestimmt wird, sondern durch das Zusammenspiel von aktiven FLOPs für das logische Schlussfolgern und dem Verhältnis von Gesamt-Token zu Parametern für das Auswendiglernen, was eine Revision der klassischen skalierbaren Berechnungsgesetze erfordert.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum sind manche KI-Modelle beim Rechnen besser als andere?

Stell dir vor, du baust ein riesiges Team von Spezialisten, um eine schwierige Aufgabe zu lösen. In der Welt der Künstlichen Intelligenz (KI) nennen wir dieses Team ein "Mixture-of-Experts" (MoE) Modell.

Das Prinzip ist einfach: Anstatt dass ein einziger riesiger Kopf (ein "dichtes" Modell) alles selbst machen muss, hast du ein riesiges Büro mit hunderten von kleinen Experten. Wenn eine Frage reinkommt, schaut ein Manager (der "Router") hin und ruft nur die wenigsten Experten, die dafür zuständig sind, um die Frage zu beantworten. Der Rest des Büros bleibt untätig. Das spart enorm viel Energie und Zeit.

Die Forscher in diesem Papier haben sich gefragt: Wie viele Experten sollten wir eigentlich rufen, damit das Team am besten funktioniert? Und die Antwort ist überraschend: Es kommt ganz darauf an, was das Team tun soll.

1. Der Unterschied zwischen "Auswendiglernen" und "Nachdenken"

Die Forscher haben zwei Arten von Aufgaben getestet:

  • Das Auswendiglernen (Memorization): Stell dir vor, du musst ein riesiges Telefonbuch auswendig lernen oder Fakten aus dem Geschichtsbuch wiedergeben.
    • Das Ergebnis: Hier ist es super, wenn du viele Experten hast, aber nur wenige davon pro Frage aktivierst. Das ist wie ein riesiges Archiv. Je mehr Regale (Experten) du hast, desto besser findest du die Information. Es ist "parameternhungrig".
  • Das Nachdenken (Reasoning): Stell dir vor, du musst eine komplexe Matheaufgabe lösen oder einen Code schreiben. Das erfordert logisches Denken und Schritte zu planen.
    • Das Ergebnis: Hier funktioniert das "wenige Experten"-Prinzip plötzlich nicht mehr gut! Wenn du zu viele Experten im Büro hast, aber nur zwei davon arbeitest, wird das Team verwirrt. Die Experten bekommen zu wenig Daten, um das komplexe Problem zu verstehen. Hier braucht man eher ein dichtes Team, bei dem mehr Experten gleichzeitig mitarbeiten.

2. Die zwei goldenen Regeln der Forscher

Die Autoren haben zwei wichtige Gesetze entdeckt, die man sich wie eine Waage vorstellen kann:

Regel 1: Die "Aktive Arbeitskraft" (Active FLOPs)
Es reicht nicht, nur ein großes Büro zu haben. Es zählt, wie viele Hände tatsächlich am Werk sind.

  • Die Analogie: Stell dir vor, du hast 100 Handwerker, aber du lässt nur 2 arbeiten. Egal wie groß das Büro ist, du wirst die Brücke nicht schnell bauen. Wenn du aber 20 Handwerker gleichzeitig arbeiten lässt (auch wenn das Büro kleiner ist), bekommst du ein besseres Ergebnis beim Bauen (Rechnen).
  • Fazit: Für schwierige Aufgaben (wie Mathe) müssen mehr Experten gleichzeitig aktiv sein, auch wenn das Modell insgesamt kleiner ist.

Regel 2: Das "Daten-zu-Personen-Verhältnis" (Tokens per Parameter)
Wie viel "Nahrung" (Daten) bekommt jeder Experte?

  • Die Analogie: Stell dir vor, du hast 100 Schüler und nur 10 Bücher. Jeder Schüler bekommt nur ein paar Seiten zu lesen. Sie werden nichts verstehen. Wenn du aber nur 10 Schüler hast und 100 Bücher, kann jeder Schüler ein ganzes Buch lesen und wird ein Experte.
  • Fazit:
    • Beim Auswendiglernen wollen wir viele Schüler (Parameter) und wenig Bücher. Sie müssen einfach nur Fakten speichern.
    • Beim Nachdenken wollen wir, dass jeder Schüler viel liest. Wenn es zu viele Schüler für zu wenige Bücher gibt, werden die "Denker" dumm, weil sie nicht genug gelernt haben. Die Forscher fanden heraus, dass das perfekte Verhältnis etwa 20 Wörter pro Schüler ist.

3. Warum "Nachträgliches Lernen" (Post-Training) das Problem nicht löst

Man könnte denken: "Okay, das Modell ist beim Rechnen schlecht. Trainieren wir es einfach noch mal extra mit Belohnungen (Reinforcement Learning) oder lassen wir es länger nachdenken (Test-Time Compute), bis es besser wird."

Die Forscher haben das ausprobiert. Das Ergebnis? Es bringt nichts.

  • Die Analogie: Wenn du ein Auto mit einem schwachen Motor hast, kannst du noch so viel Benzin (Rechenleistung beim Nachdenken) oder einen besseren Fahrer (extra Training) nehmen – das Auto wird trotzdem nicht schneller als ein Auto mit einem starken Motor.
  • Die Schwäche im "Denken" ist im Design des Modells (wie viele Experten aktiv sind) fest verankert. Man kann das nicht einfach nachträglich reparieren.

4. Was bedeutet das für die Zukunft?

Bisher dachten die KI-Forscher: "Je größer das Modell, desto besser."
Diese Arbeit sagt: "Nein, das ist zu einfach gedacht."

  • Wenn du eine KI bauen willst, die Fakten kennt (wie ein Lexikon), mach sie sehr groß und spärlich (viele Experten, wenige aktiv).
  • Wenn du eine KI bauen willst, die denken kann (wie ein Mathematiker), musst du sie etwas "dichter" machen (mehr Experten gleichzeitig aktiv) und sicherstellen, dass sie genug Daten pro Person bekommt.

Es gibt keinen "Einheitsgriffel" für alle KI-Modelle. Man muss das Design genau auf die Aufgabe zuschneiden. Wer das ignoriert, baut zwar riesige Modelle, die aber beim Lösen von Problemen versagen.

Zusammengefasst:
Ein riesiges Team mit wenigen aktiven Mitgliedern ist toll für das Auswendiglernen. Aber wenn es darum geht, komplexe Probleme zu lösen, braucht man ein Team, bei dem mehr Köpfe gleichzeitig arbeiten und jeder genug Informationen bekommt. Die Kunst liegt darin, das richtige Gleichgewicht zu finden.