REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Het artikel introduceert REAP, een nieuwe methode voor het comprimeren van MoE-modellen door experts te verwijderen in plaats van ze te samenvoegen, wat leidt tot superieure prestaties op generatieve taken zoals codegeneratie door het behoud van de fijne routeringscontrole.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🌾 De Oogst van de Experts: Waarom "Wegsnijden" Beter Werkt dan "Samenvoegen"

Stel je voor dat je een gigantisch, super-intelligent kantoor hebt. Dit kantoor heet een SMoE-model (Sparsely-activated Mixture-of-Experts). In plaats van dat één persoon alles doet, zijn er duizenden gespecialiseerde experts (zoals een programmeur, een dichter, een wiskundige, een vertaler).

Er is echter een router (een secretaresse) die elke vraag krijgt. Als er een vraag komt over wiskunde, stuurt de secretaresse die naar de wiskundige. Is het een vraag over code? Dan gaat het naar de programmeur. Soms werkt ze zelfs met twee experts tegelijk.

Het probleem? Dit kantoor is enorm groot en kost veel ruimte (geheugen) en geld om te draaien. Mensen willen het verkleinen, maar dan moet je beslissen: welke experts houden we over?

De onderzoekers van dit paper hebben twee manieren onderzocht om dit kantoor kleiner te maken:

  1. Samenvoegen (Merging): Twee experts in één nieuwe "super-expert" steken.
  2. Wegsnijden (Pruning): De minst belangrijke experts gewoon ontslaan.

Tot nu toe dachten veel mensen dat samenvoegen de beste optie was. Maar dit paper zegt: "Nee, dat is een fout! Wegsnijden werkt veel beter, vooral als je creatieve taken wilt doen."

Hier is waarom, vertaald in alledaagse taal:

1. Het probleem met Samenvoegen: De "Smoothie"

Stel je voor dat je twee experts hebt:

  • Expert A is een scharrelaar die alleen werkt als het zonnig is.
  • Expert B is een regenhoed die alleen werkt als het regent.

De secretaresse (de router) is slim: ze weet precies wanneer de zon schijnt en wanneer het regent, en schakelt de juiste persoon in.

Samenvoegen is alsof je deze twee mensen in één nieuwe persoon stopt en zegt: "Jij bent nu een mix van beiden." Je maakt een smoothie van hen.

  • Het probleem? Die nieuwe "smoothie-expert" is nooit perfect. Als het regent, wil je de regenhoed, maar de smoothie is half-zon/half-regen. Hij doet het nooit perfect voor de ene situatie, en nooit perfect voor de andere.
  • De secretaresse kan niet meer kiezen tussen "alleen zon" of "alleen regen". Ze is haar vrije keuze kwijt. Ze moet nu altijd met die saaie, gemiddelde smoothie werken.

In de wereld van AI betekent dit: als je experts samenvoegt, verlies je de fijne details. Het model wordt goed in simpele meerkeuzevragen (waar een gemiddelde antwoord vaak volstaat), maar faalt bij creatieve taken zoals schrijven, coderen of wiskunde, waar je precies de juiste "expert" op het juiste moment nodig hebt.

2. De oplossing: REAP (Wegsnijden met verstand)

De onderzoekers zeggen: "Laat de experts gewoon hun eigen werk doen, maar ontsla degene die het minst doet."

Ze hebben een nieuwe methode bedacht die REAP heet (Router-weighted Expert Activation Pruning).

  • Hoe werkt het? In plaats van willekeurig experts te ontslaan, kijkt REAP naar twee dingen:
    1. Hoe vaak roept de secretaresse ze op? (De router).
    2. Hoe goed doen ze hun werk als ze er zijn? (De activatie).
  • Als een expert zelden wordt geroepen, of als ze er is maar weinig toevoegt, wordt die expert ontslagen.
  • Het grote voordeel: De secretaresse houdt haar vrije keuze over de overgebleven experts. Ze kan nog steeds zeggen: "Voor deze vraag neem ik Expert A, en voor die vraag Expert B." De dynamiek blijft intact.

3. De Test: Het Kantoor in de Praktijk

De onderzoekers hebben dit getest op enorme modellen (van 20 miljard tot 1 biljoen parameters!). Ze hebben gekeken naar taken zoals:

  • Meerkeuzevragen: Hier deed samenvoegen het nog redelijk goed.
  • Coderen (Programmeren) & Creatief Schrijven: Hier was het verschil enorm.
    • Bij samenvoegen werd het model "slap". Het kon geen complexe code meer schrijven of mooie verhalen bedenken. Het werd saai en herhalend.
    • Bij REAP (wegsnijden) bleef het model bijna even goed als het origineel, zelfs als ze 50% van de experts ontsloegen!

Een mooi voorbeeld:
Ze namen een model dat gespecialiseerd is in coderen (Qwen3-Coder-480B). Ze sneden de helft van de experts eraf.

  • Met de oude methode (samenvoegen) stortte de kwaliteit in.
  • Met REAP bleef het model bijna even goed code schrijven. Het was alsof je een team van 100 programmeurs hebt, en je ontslaat 50 van de minst productieve, maar de overgebleven 50 werken nog steeds perfect samen.

4. Waarom is dit belangrijk?

  • Efficiëntie: Je hebt minder geheugen nodig, dus je kunt deze slimme modellen op kleinere computers of zelfs lokaal draaien.
  • Kwaliteit: Je verliest niet de "ziel" van het model. Het blijft creatief en slim, in plaats van saai en gemiddeld.
  • De les: Soms is het beter om een team te verkleinen door de zwakste leden te ontslaan, dan om iedereen in één grote, saaie groep te smelten.

Conclusie in één zin

Het paper leert ons dat bij het verkleinen van slimme AI-modellen, het bewaren van de keuzevrijheid (door experts weg te snijden in plaats van ze te mixen) cruciaal is om de echte intelligentie en creativiteit te behouden. REAP is de nieuwe, slimme manier om die "oogst" te doen zonder de kwaliteit te verliezen.