EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Die Arbeit stellt EvoESAP vor, einen evolutionären Suchrahmen, der durch die Optimierung einer nicht-uniformen Schicht-für-Schicht-Sparsität unter Verwendung der ESAP-Metrik die Leistung von Sparse-Mixture-of-Experts-Modellen bei gleichzeitiger Reduzierung des Speicherverbrauchs signifikant verbessert.

Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, genialen Koch namens MoE (Mixture of Experts). Dieser Koch ist nicht eine einzelne Person, sondern ein Team aus 8 verschiedenen Spezialisten (den "Experten").

Wenn Sie dem Koch eine Frage stellen (z. B. "Wie backe ich einen Kuchen?"), schaut sich der Kellner (der Router) die Frage an und entscheidet: "Für diese Frage brauchen wir nur den Kuchen-Experten und den Zucker-Experten." Die anderen 6 Experten (z. B. der Auto-Experte oder der Medizin-Experte) müssen nicht arbeiten. Das ist super effizient, weil der Koch nur für die zwei aktiven Experten bezahlen muss, obwohl das gesamte Team im Hintergrund steht.

Das Problem:
Obwohl der Koch beim Kochen nur zwei Leute braucht, müssen Sie das gesamte Team von 8 Leuten in Ihrer Küche (dem Speicher Ihres Computers) unterbringen. Das kostet viel Platz und Energie. Wenn Sie den Koch auf ein kleines Handy oder einen billigen Server stellen wollen, passt das ganze Team einfach nicht mehr hinein.

Die alte Lösung (Das "Einheits-Prinzip"):
Bisher haben Forscher versucht, den Koch zu verkleinern, indem sie in jedem Raum (jeder Schicht des Gehirns) einfach die gleichen 2 Experten rausgeworfen haben.

  • Beispiel: In Raum 1 feuern wir 2, in Raum 2 feuern wir 2, in Raum 3 feuern wir 2.
  • Das Problem: Das ist wie ein starres Regelwerk. Vielleicht braucht Raum 1 die Experten dringend, aber Raum 15 ist eigentlich ziemlich egal. Wenn man dort trotzdem die gleichen Leute feuert, wird der Koch in Raum 15 vielleicht dumm, aber in Raum 15 war er eh nicht so wichtig. Man verpasst also die Chance, den Koch an den richtigen Stellen schlauer zu machen.

Die neue Lösung: EvoESAP (Der evolutionäre Sucher)
Die Autoren dieses Papiers haben eine clevere Methode entwickelt, um herauszufinden, wo man genau welche Experten feuern sollte, damit der Koch am Ende immer noch genial schmeckt, aber viel kleiner ist.

Hier ist die Erklärung in drei einfachen Schritten:

1. Der "Spürhund" (ESAP)

Stellen Sie sich vor, Sie wollen testen, ob ein verkleinerter Koch noch gut kocht. Der normale Weg wäre, ihn 1.000 Gerichte kochen zu lassen und dann zu schmecken. Das dauert ewig und ist teuer.

Die Autoren haben einen Spürhund namens ESAP erfunden.

  • Wie er funktioniert: Der Spürhund schaut nicht auf das fertige Gericht. Er schaut sich an, wie der verkleinerte Koch überlegt, bevor er kocht.
  • Die Analogie: Stellen Sie sich vor, der große Koch (das Original) und der kleine Koch (der verkleinerte) stehen nebeneinander. Der große Koch sagt: "Ich würde jetzt Salz nehmen." Der kleine Koch sagt: "Ich würde auch Salz nehmen."
  • Der Spürhund misst: "Wie oft sagen beide das Gleiche?" Je mehr sie übereinstimmen, desto besser ist der kleine Koch.
  • Der Clou: Dieser Spürhund ist extrem schnell. Er muss nicht warten, bis das Essen fertig ist. Er kann hunderte von kleinen Koch-Teams in Sekunden testen.

2. Die "Evolution" (EvoESAP)

Jetzt haben wir den Spürhund. Wie finden wir den besten Koch?
Stellen Sie sich vor, Sie haben eine Gruppe von 32 verschiedenen Koch-Teams. Jedes Team hat eine andere Strategie, wer rausgeworfen wird (z. B. Team A feuert im Raum 1 viel, Team B im Raum 15).

  • Der Test: Der Spürhund prüft alle 32 Teams.
  • Die Auswahl: Die 4 besten Teams werden ausgewählt (die "Überlebenden").
  • Die Mutation (Der Tausch): Die anderen Teams werden nicht einfach gelöscht. Stattdessen nehmen wir die besten Teams und tauschen etwas aus.
    • Beispiel: Team A feuerte im Raum 1 zu viele Leute. Wir nehmen also 2 Experten aus Raum 1 und geben sie in Raum 15 zurück (wo sie vielleicht gebraucht werden). Das ist wie ein Tauschhandel.
  • Wiederholung: Wir machen das 50 Mal hintereinander. Jedes Mal wird das Team ein bisschen besser, weil wir die "falschen" Entlassungen korrigieren.

3. Das Ergebnis: Nicht überall gleich, sondern genau richtig

Am Ende haben wir nicht mehr ein Team, das überall gleich viele Leute entlassen hat. Wir haben ein Team, das sagt:

  • "Im ersten Raum behalten wir fast alle Experten, das ist wichtig!"
  • "Im letzten Raum können wir 50% der Experten rauswerfen, das macht nichts."

Warum ist das so toll?
Die Studie zeigt, dass diese "unregelmäßige" Verteilung (manchmal viel, manchmal wenig) den Koch viel besser macht als die starre "immer gleich viel"-Methode.

  • Besonders bei kreativen Aufgaben (wie das Schreiben von Geschichten oder das Lösen von Matheaufgaben) ist der Unterschied riesig. Der verkleinerte Koch kann plötzlich fast so gut kochen wie der große Original-Koch, obwohl er nur halb so viele Leute im Team hat.
  • Bei einfachen Multiple-Choice-Fragen (wie "Ist die Sonne heiß?") war der Unterschied kleiner, aber bei komplexen Dingen war der Gewinn enorm.

Zusammenfassung in einem Satz

Statt einfach überall gleich viele Experten zu feuern (wie einen Stempel), hat EvoESAP einen intelligenten Sucher gebaut, der genau dort feuert, wo es am wenigsten wehtut, und dort behält, wo es am wichtigsten ist – und das alles, ohne den Koch neu ausbilden zu müssen.

Der große Gewinn: Wir können jetzt riesige, super-intelligente KI-Modelle auf viel kleineren Geräten laufen lassen, ohne dass sie dumm werden. Das spart Geld, Energie und macht KI für alle zugänglicher.