Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

Diese Arbeit leitet ein skalierbares Gesetz her, das die optimale Aufteilung der Rechenleistung zwischen Experten- und Aufmerksamkeits-Schichten in Mixture-of-Experts-Modellen bestimmt, um die Leistung bei festem Budget zu maximieren und die Chinchilla-Skalierungsgesetze zu erweitern.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen einen riesigen, superintelligenten Koch, der Millionen von Rezepten auswendig lernen soll. Dieser Koch ist ein MoE-Modell (Mixture of Experts). Aber statt dass ein einziger Koch alles tut, haben Sie ein Team von Spezialisten:

  1. Die "Aufmerksamkeits-Köche" (Attention): Diese schauen sich an, welche Zutaten (Wörter) in einem Satz zusammengehören. Sie verstehen den Kontext: "Warum steht 'Bank' hier und nicht 'Parkbank'?"
  2. Die "Spezialisten-Köche" (Experts): Diese sind die Experten für bestimmte Dinge. Einer kennt sich mit Mathe aus, einer mit Geschichte, einer mit Programmcode. Aber hier ist der Trick: Bei jedem Satz aktiviert der Chef nur ein paar dieser Spezialisten, nicht alle gleichzeitig. Das spart enorm viel Energie.

Das Problem: Wer bekommt wie viel Budget?

In der Vergangenheit haben die Architekten dieser KI-Modelle einfach geraten, wie viel Rechenleistung (Geld/Energie) sie in die "Aufmerksamkeits-Köche" stecken und wie viel in die "Spezialisten-Köche". Oft haben sie einfach das alte Design von dichten Modellen kopiert.

Die Autoren dieses Papiers stellen eine wichtige Frage: Wenn wir ein festes Budget an Energie haben, wie teilen wir es am besten auf?

Stellen Sie sich vor, Sie haben ein festes Geldbudget für ein Jahr.

  • Wenn Sie zu viel Geld in die Spezialisten stecken, aber zu wenig in die Aufmerksamkeit, versteht der Koch den Zusammenhang zwischen den Wörtern nicht richtig.
  • Wenn Sie zu viel in die Aufmerksamkeit stecken, aber zu wenig in die Spezialisten, hat der Koch zwar ein gutes Verständnis für Sätze, aber ihm fehlen die tiefen Fachkenntnisse.

Die Entdeckung: Es gibt eine "Goldene Regel"

Die Forscher haben Tausende von Experimenten gemacht und eine überraschende Entdeckung gemacht: Es gibt keine feste Regel.

Die perfekte Aufteilung hängt von zwei Dingen ab:

  1. Wie groß das Gesamtbudget ist: Je mehr Geld (Rechenleistung) Sie haben, desto mehr sollten Sie in die Spezialisten investieren.
  2. Wie "sparsam" Sie sind: Wenn Sie sehr viele Spezialisten haben, aber pro Satz nur sehr wenige aktivieren (hohe Sparsamkeit), müssen Sie anders planen als wenn Sie viele Spezialisten gleichzeitig aktivieren.

Die Analogie des Wachstums:
Stellen Sie sich vor, Sie bauen eine Bibliothek.

  • Kleine Bibliothek: Sie brauchen zuerst gute Regale und ein gutes System, um die Bücher zu finden (das ist die "Aufmerksamkeit").
  • Riesige Bibliothek: Wenn Sie Millionen Bücher haben, reicht das System nicht mehr. Sie brauchen jetzt viel mehr Fachbibliothekare (die "Spezialisten"), um das Wissen zu verarbeiten.

Die Forscher haben herausgefunden, dass die perfekte Anzahl an Fachbibliothekaren nicht einfach linear wächst, sondern einer magischen Formel folgt. Je größer die Bibliothek wird, desto mehr müssen Sie in die Experten investieren, aber nur, wenn Sie die richtige Anzahl an Büchern (Daten) und die richtige Sparsamkeit haben.

Die Formel für den Erfolg

Die Autoren haben eine einfache Formel gefunden, die genau sagt:
"Wenn du X Rechenleistung hast und Y% deiner Spezialisten pro Satz nutzt, dann solltest du Z% deines Budgets in die Experten stecken."

Wenn Sie diese Formel ignorieren und stattdessen eine feste Regel verwenden (z. B. "immer 50% für beide"), verschwenden Sie Geld. Sie bauen eine Bibliothek, die entweder zu viele Regale hat, aber keine Bibliothekare, oder umgekehrt.

Warum ist das wichtig?

In der echten Welt haben Firmen wie Google oder Microsoft ein festes Budget an Strom und Grafikkarten. Sie können nicht einfach "unendlich viel" Rechenleistung kaufen.

Diese Studie gibt ihnen einen Bauplan:

  • Wenn Sie ein neues, riesiges KI-Modell bauen wollen, müssen Sie nicht raten.
  • Sie können die Formel nehmen und genau berechnen, wie viele "Spezialisten" und wie viel "Aufmerksamkeit" Sie brauchen, um das Maximum aus Ihrem Budget herauszuholen.

Zusammenfassend:
Die Autoren haben bewiesen, dass man KI-Modelle nicht mehr nach dem "Gießkannen-Prinzip" bauen darf. Man muss wie ein kluger Chef, der sein Budget dynamisch verteilt: Je größer das Team wird, desto mehr muss man in die Spezialisten investieren, aber nur, wenn man weiß, wie man sie effizient einsetzt. Das ist der Schlüssel, um mit weniger Geld intelligentere KIs zu bauen.