HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

Dit artikel introduceert HEAPr, een nieuwe pruning-methode voor Mixture-of-Experts-modellen die door het gebruik van Hessiaanse informatie op atomaire expert-niveau een fijnere en efficiëntere compressie mogelijk maakt met minimaal verlies aan nauwkeurigheid.

Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een enorm kantoor is met duizenden experts. In de moderne "MoE" (Mixture of Experts) modellen werken deze experts niet allemaal tegelijk. In plaats daarvan is er een slimme manager (de router) die bij elke vraag kijkt: "Wie is hier de beste persoon voor deze taak?" en slechts een paar experts laat werken. Dit maakt het model heel snel en slim.

Maar er is een groot probleem: alle experts moeten op de harde schijf van de computer staan, zelfs als ze niet gebruikt worden. Dit kost enorm veel geheugen en maakt het moeilijk om deze modellen op gewone laptops of telefoons te draaien.

Tot nu toe probeerden mensen dit op te lossen door hele experts weg te gooien. Maar dat is als een bedrijf dat besluit: "We hebben 100 mensen, laten we er 20 volledig ontslaan." Het risico is groot dat je iemand ontslaat die net de perfecte kennis had voor een specifieke, zeldzame vraag. Het resultaat: de chatbot wordt slomer en maakt meer fouten.

HEAPr is een nieuwe, slimme manier om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Atomaire Expert": Van Teamleden naar Bouwstenen

Stel je een expert voor als een gereedschapskist. In de oude methode gooi je de hele kist weg als je denkt dat hij niet vaak gebruikt wordt.
HEAPr kijkt echter dieper. Het beseft dat elke "kist" (expert) eigenlijk bestaat uit kleinere, onbreekbare onderdelen: atomaire experts.

  • Voorbeeld: Een expert is als een kok die een gerecht maakt. De atomaire experts zijn de specifieke ingrediënten of handelingen: het snijden van de ui, het bakken van het vlees, het kruiden van de saus.
    HEAPr zegt: "We hoeven niet de hele kok te ontslaan. Laten we gewoon de handeling 'snijden van de ui' verwijderen als die niet nodig is voor dit specifieke gerecht." Hierdoor kun je veel meer wegdoen zonder dat het hele team instort.

2. De "Hersenen" van de Operatie: De Tweede Graads Analyse

Hoe weet je nu welke "snij-handeling" je kunt verwijderen zonder dat het gerecht mislukt?
De auteurs gebruiken een wiskundige techniek die lijkt op de "Optimale Hersenchirurg" (een theorie uit de jaren '90).

  • De oude manier: Ze keken naar de "eerste graad" (hoe hard iemand werkt).
  • De nieuwe manier (HEAPr): Ze kijken naar de "tweede graad". Dit is alsof ze niet alleen kijken naar wie er werkt, maar naar hoe gevoelig het hele systeem is als je iemand weghaalt. Ze vragen zich af: "Als ik deze specifieke handeling stop, hoeveel gaat de kwaliteit van het eindresultaat (de fouten) stijgen?"

3. Het Geniale Trucje: Van Ingewikkeld naar Eenvoudig

Het probleem met deze "tweede graads" berekening is dat het normaal gesproken zo veel rekenkracht en geheugen kost dat het onmogelijk is voor zulke grote modellen. Het zou zijn alsof je een hele bibliotheek moet lezen om één zin te controleren.

HEAPr gebruikt een slimme truc:

  1. Decompositie: Omdat de atomaire experts onafhankelijk zijn, hoeven ze niet allemaal tegelijk berekend te worden.
  2. De Uitvoer-Space: In plaats van te kijken naar de ingewikkelde interne berekeningen van de experts, kijken ze alleen naar het eindresultaat (de output).
  • Analogie: In plaats van te analyseren hoe elke schroef in de motor van een auto is gemaakt (wat enorm veel tijd kost), kijken ze gewoon naar hoe de auto rijdt als je een schroef losdraait. Als de auto nog steeds soepel rijdt, was die schroef niet essentieel.

Dit vermindert de benodigde rekenkracht en geheugen met een factor van duizenden, waardoor het plotseling haalbaar wordt.

4. Het Resultaat: Meer ruimte, zelfde slimheid

De resultaten van de test zijn indrukwekkend:

  • Je kunt 20% tot 25% van de "atomaire experts" verwijderen (zoals het weghalen van overbodige ingrediënten uit de keuken).
  • De chatbot wordt 20% sneller en neemt 20% minder geheugen in beslag.
  • Het slimme is: de chatbot maakt bijna geen enkele fout meer dan voorheen. Het is alsof je een zware jas uittrekt, maar je bent nog steeds even warm en comfortabel.

Kort samengevat:
HEAPr is als een super-efficiënte manager die niet hele afdelingen ontslaat, maar precies weet welke kleine taken overbodig zijn. Door slimme wiskunde toe te passen, kan hij deze taken verwijderen zonder dat het bedrijf (het AI-model) zijn kennis verliest. Hierdoor kunnen we deze slimme chatbots eindelijk op gewone apparaten laten draaien.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →