HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

Das Paper stellt HEAPr vor, einen effizienten Pruning-Algorithmus für Mixture-of-Experts-Modelle, der durch die Zerlegung von Experten in atomare Einheiten und die Nutzung von Hessian-basierter zweiter Ordnung die Speicherkomplexität auf O(d2)O(d^2) reduziert und dabei bei hohen Pruning-Raten nahezu verlustfreie Kompression ermöglicht.

Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein großes Sprachmodell (wie ein KI-Assistent) ist wie ein riesiges, hochspezialisiertes Kochteam in einer Super-Küche.

In herkömmlichen Modellen arbeiten alle Köche gleichzeitig an jedem Gericht. Das ist langsam und braucht riesige Küchen.
MoE-Modelle (Mixture-of-Experts) sind cleverer: Es gibt ein "Türsteher-System" (den Router), das nur die wenigen Köche auswählt, die für ein bestimmtes Gericht wirklich gut sind. Wenn du über Mathematik fragst, werden nur die Mathematik-Köche aktiviert. Das macht das Denken schneller.

Aber hier liegt das Problem:
Obwohl nur wenige Köche arbeiten, müssen alle Köche im Gebäude anwesend sein und Platz einnehmen. Die Küche ist vollgestopft mit tausenden von Köchen, von denen die meisten gerade nur herumstehen. Das kostet enorm viel Speicherplatz (Gedächtnis) und macht es schwer, die KI auf normalen Geräten laufen zu lassen.

Bisherige Methoden, um diese Küche zu verkleinern, waren wie ein grober Kettensäge-Einsatz: Man hat ganze Köcheteams (Experten) komplett rausgeworfen oder zusammengefasst. Das war oft zu grob: Man hat vielleicht den einzigen Koch rausgeworfen, der das perfekte Gewürz kannte, und das Gericht schmeckte danach furchtbar.

Die Lösung: HEAPr – Der "Atomare" Küchen-Check

Die Forscher haben eine neue Methode namens HEAPr entwickelt. Hier ist die einfache Erklärung, wie sie funktioniert, mit ein paar kreativen Vergleichen:

1. Die Zerlegung: Vom Kochteam zum einzelnen Gewürz

Statt ganze Köcheteams zu entfernen, schauen sich die Forscher die Köche noch genauer an. Sie stellen fest: Jeder "Experte" (Koch) besteht eigentlich aus vielen kleinen, unteilbaren Einheiten – nennen wir sie "Atomare Experten".

  • Vergleich: Stell dir vor, ein Koch ist nicht nur eine Person, sondern ein Set aus verschiedenen Werkzeugen: Ein Messer, ein Schneidebrett und ein Gewürzstreuer.
  • HEAPr entfernt nicht den ganzen Koch, sondern nur das unnötige Werkzeug (z. B. ein stumpfes Messer), das niemand braucht. Der Rest des Kochs bleibt erhalten und funktioniert weiter. Das ist viel präziser.

2. Die Intelligenz: Der "Zweite Blick" (Hessische Matrix)

Wie wissen sie, welches Werkzeug sie wegwerfen dürfen, ohne dass das Essen verdirbt?
Frühere Methoden haben nur geschaut: "Wie oft wird dieses Werkzeug benutzt?" (Das ist wie zu sagen: "Wir brauchen das Messer nicht, weil es heute niemand benutzt hat"). Das ist oft falsch, weil es vielleicht nur zufällig heute nicht gebraucht wurde.

HEAPr macht etwas viel Klügeres: Es nutzt eine mathematische Vorhersage, die wie ein "Zweiter Blick" funktioniert.

  • Die Analogie: Stell dir vor, du willst testen, ob du das Gewürz aus dem Rezept streichen kannst. Ein einfacher Test wäre, es einfach wegzulassen und zu schmecken.
  • HEAPr macht aber einen "Simulationstest": Es berechnet theoretisch, wie sehr der Geschmack (die Leistung der KI) leiden würde, wenn man das Gewürz weglässt. Es schaut nicht nur auf die Oberfläche, sondern berechnet die Auswirkung auf die Struktur des Ganzen.
  • Das ist wie ein genialer Küchenchef, der sagt: "Wenn wir das Salz weglassen, wird das Gericht nicht nur etwas salzlos, sondern die ganze Sauce bricht zusammen." Oder: "Wenn wir das Paprika weglassen, merkt das niemand."

3. Der Trick: Die "Flüster-Technik" (Effizienz)

Das Problem bei diesem "Zweiten Blick" ist normalerweise, dass die Berechnungen so komplex sind, als müsste man jede einzelne Kombination von Zutaten in jeder möglichen Küche simulieren. Das würde Jahre dauern und den Computer sprengen.

HEAPr hat einen genialen Trick gefunden, um das zu vereinfachen:

  • Statt zu berechnen, wie sich jedes einzelne Werkzeug auf jedes andere auswirkt, schauen sie nur auf das Ergebnis (den Teller mit dem Essen).
  • Vergleich: Statt zu analysieren, wie sich das Messer auf das Schneidebrett auswirkt, schauen sie nur auf den fertigen Teller. Wenn der Teller perfekt aussieht, ist alles in Ordnung.
  • Durch diesen Trick wird die Berechnung unmengenmal schneller und braucht weniger Speicher. Sie brauchen dafür nur einen kurzen Testlauf mit ein paar Beispielsätzen (eine "Kalibrierungs-Küche"), um zu entscheiden, was weg kann.

Das Ergebnis: Eine schlankere Küche, gleicher Geschmack

Was bringt das alles?

  • Platzsparend: Man kann bis zu 20–25 % der "Köche" (bzw. ihrer Werkzeuge) entfernen, ohne dass die KI schlechter wird. Es ist fast wie ein "verlustfreies" Komprimieren.
  • Schneller: Da weniger Werkzeuge bewegt werden müssen, ist die KI auch schneller (bis zu 20 % weniger Rechenarbeit).
  • Robust: Die Methode funktioniert bei verschiedenen großen KI-Modellen (wie DeepSeek oder Qwen) gleich gut.

Zusammenfassend:
HEAPr ist wie ein hochmoderner Küchen-Optimierer. Statt ganze Teams zu feuern (was oft katastrophal ist), analysiert es präzise, welche kleinen Werkzeuge in jedem Team überflüssig sind, und entfernt nur diese. Und das alles so clever berechnet, dass es schnell geht und die Qualität der KI (den Geschmack des Gerichts) perfekt erhält.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →