REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Each language version is independently generated for its own context, not a direct translation.

🌾 De Oogst van de Experts: Waarom "Wegsnijden" Beter Werkt dan "Samenvoegen"

Stel je voor dat je een gigantisch, super-intelligent kantoor hebt. Dit kantoor heet een SMoE-model (Sparsely-activated Mixture-of-Experts). In plaats van dat één persoon alles doet, zijn er duizenden gespecialiseerde experts (zoals een programmeur, een dichter, een wiskundige, een vertaler).

Er is echter een router (een secretaresse) die elke vraag krijgt. Als er een vraag komt over wiskunde, stuurt de secretaresse die naar de wiskundige. Is het een vraag over code? Dan gaat het naar de programmeur. Soms werkt ze zelfs met twee experts tegelijk.

Het probleem? Dit kantoor is enorm groot en kost veel ruimte (geheugen) en geld om te draaien. Mensen willen het verkleinen, maar dan moet je beslissen: welke experts houden we over?

De onderzoekers van dit paper hebben twee manieren onderzocht om dit kantoor kleiner te maken:

Samenvoegen (Merging): Twee experts in één nieuwe "super-expert" steken.
Wegsnijden (Pruning): De minst belangrijke experts gewoon ontslaan.

Tot nu toe dachten veel mensen dat samenvoegen de beste optie was. Maar dit paper zegt: "Nee, dat is een fout! Wegsnijden werkt veel beter, vooral als je creatieve taken wilt doen."

Hier is waarom, vertaald in alledaagse taal:

1. Het probleem met Samenvoegen: De "Smoothie"

Stel je voor dat je twee experts hebt:

Expert A is een scharrelaar die alleen werkt als het zonnig is.
Expert B is een regenhoed die alleen werkt als het regent.

De secretaresse (de router) is slim: ze weet precies wanneer de zon schijnt en wanneer het regent, en schakelt de juiste persoon in.

Samenvoegen is alsof je deze twee mensen in één nieuwe persoon stopt en zegt: "Jij bent nu een mix van beiden." Je maakt een smoothie van hen.

Het probleem? Die nieuwe "smoothie-expert" is nooit perfect. Als het regent, wil je de regenhoed, maar de smoothie is half-zon/half-regen. Hij doet het nooit perfect voor de ene situatie, en nooit perfect voor de andere.
De secretaresse kan niet meer kiezen tussen "alleen zon" of "alleen regen". Ze is haar vrije keuze kwijt. Ze moet nu altijd met die saaie, gemiddelde smoothie werken.

In de wereld van AI betekent dit: als je experts samenvoegt, verlies je de fijne details. Het model wordt goed in simpele meerkeuzevragen (waar een gemiddelde antwoord vaak volstaat), maar faalt bij creatieve taken zoals schrijven, coderen of wiskunde, waar je precies de juiste "expert" op het juiste moment nodig hebt.

2. De oplossing: REAP (Wegsnijden met verstand)

De onderzoekers zeggen: "Laat de experts gewoon hun eigen werk doen, maar ontsla degene die het minst doet."

Ze hebben een nieuwe methode bedacht die REAP heet (Router-weighted Expert Activation Pruning).

Hoe werkt het? In plaats van willekeurig experts te ontslaan, kijkt REAP naar twee dingen:
1. Hoe vaak roept de secretaresse ze op? (De router).
2. Hoe goed doen ze hun werk als ze er zijn? (De activatie).
Als een expert zelden wordt geroepen, of als ze er is maar weinig toevoegt, wordt die expert ontslagen.
Het grote voordeel: De secretaresse houdt haar vrije keuze over de overgebleven experts. Ze kan nog steeds zeggen: "Voor deze vraag neem ik Expert A, en voor die vraag Expert B." De dynamiek blijft intact.

3. De Test: Het Kantoor in de Praktijk

De onderzoekers hebben dit getest op enorme modellen (van 20 miljard tot 1 biljoen parameters!). Ze hebben gekeken naar taken zoals:

Meerkeuzevragen: Hier deed samenvoegen het nog redelijk goed.
Coderen (Programmeren) & Creatief Schrijven: Hier was het verschil enorm.
- Bij samenvoegen werd het model "slap". Het kon geen complexe code meer schrijven of mooie verhalen bedenken. Het werd saai en herhalend.
- Bij REAP (wegsnijden) bleef het model bijna even goed als het origineel, zelfs als ze 50% van de experts ontsloegen!

Een mooi voorbeeld:
Ze namen een model dat gespecialiseerd is in coderen (Qwen3-Coder-480B). Ze sneden de helft van de experts eraf.

Met de oude methode (samenvoegen) stortte de kwaliteit in.
Met REAP bleef het model bijna even goed code schrijven. Het was alsof je een team van 100 programmeurs hebt, en je ontslaat 50 van de minst productieve, maar de overgebleven 50 werken nog steeds perfect samen.

4. Waarom is dit belangrijk?

Efficiëntie: Je hebt minder geheugen nodig, dus je kunt deze slimme modellen op kleinere computers of zelfs lokaal draaien.
Kwaliteit: Je verliest niet de "ziel" van het model. Het blijft creatief en slim, in plaats van saai en gemiddeld.
De les: Soms is het beter om een team te verkleinen door de zwakste leden te ontslaan, dan om iedereen in één grote, saaie groep te smelten.

Conclusie in één zin

Het paper leert ons dat bij het verkleinen van slimme AI-modellen, het bewaren van de keuzevrijheid (door experts weg te snijden in plaats van ze te mixen) cruciaal is om de echte intelligentie en creativiteit te behouden. REAP is de nieuwe, slimme manier om die "oogst" te doen zonder de kwaliteit te verliezen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "REAP THE EXPERTS: WHY PRUNING PREVAILS FOR ONE-SHOT MOE COMPRESSION", gepubliceerd bij ICLR 2026.

Probleemstelling

Sparsely-activated Mixture-of-Experts (SMoE) modellen bieden efficiëntere pre-training en lagere latentie dan dichte modellen, maar leiden tot een enorme parameteromvang die aanzienlijke geheugenoverhead veroorzaakt. Dit beperkt de inzetbaarheid in omgevingen met beperkte resources. Bestaande onderzoek richt zich op expert-compressie, voornamelijk via twee methoden:

Expert Pruning: Het volledig verwijderen van experts.
Expert Merging: Het samenvoegen van experts tot één nieuwe expert (vaak via clustering en gewogen gemiddelden).

Recente studies suggereren dat merging superieur is aan pruning op discriminatieve benchmarks (zoals meerkeuzevragen). Echter, dit paper stelt dat deze conclusie misleidend is voor generatieve taken (zoals code-generatie, creatief schrijven en wiskundig redeneren). De auteurs tonen aan dat merging fundamentele fouten introduceert die niet kunnen worden opgelost zonder her-training, terwijl pruning deze beperkingen omzeilt.

Methodologie en Theoretische Analyse

De kern van het paper ligt in een theoretische analyse van de fouten die ontstaan bij compressie, gevolgd door de introductie van een nieuwe methode.

1. Theoretische Inzichten: De "Irreducible Error" van Merging
De auteurs analyseren de output van een SMoE-laag. Bij merging worden twee experts $f_i$ en $f_j$ samengevoegd tot één statische expert $\tilde{f}$ . De router moet echter de dynamische, input-afhankelijke mix $r(x)f_i(x) + (1-r(x))f_j(x)$ benaderen met een statische combinatie.

Het probleem: Merging verliest de onafhankelijke, input-afhankelijke modulatie van de router. De router kan de samengevoegde expert niet meer dynamisch aansturen.
Foutanalyse: De paper leidt af dat merging een onherleidbare fout introduceert die evenredig is met de variabiliteit van het router-beleid ( $Var[r(x)]$ ) en het functionele verschil tussen de experts. In hoog-granulaire SMoE-modellen (veel experts per laag) is deze variabiliteit groot, wat leidt tot een "functional subspace collapse" (instorting van de functionele ruimte).
Vergelijking met Pruning: Bij pruning wordt een expert verwijderd, maar behoudt de router de onafhankelijke controle over de overgebleven experts. De fout bij pruning is beperkt tot het moment dat de verwijderde expert actief zou zijn geweest (substitutiefout), maar er is geen verlies van controlemechanisme.

2. Empirisch Bewijs: Manifold Distorsie
Door de output-manifolds van experts te visualiseren (via PCA) en de 1-Wasserstein-afstand te meten, tonen de auteurs aan dat:

Merging leidt tot een sterke contractie van de manifold naar het centrum en introduceert nieuwe, niet-bestaande functies die de topologie van de originele ruimte verstoren.
Pruning behoudt de geometrie en topologie van de originele manifold, omdat het een coördinaat-dimensie-reductie is zonder de relaties tussen de overgebleven experts te veranderen.

3. De Oplossing: REAP (Router-weighted Expert Activation Pruning)
Om de beste experts te verwijderen zonder prestatieverlies, stellen de auteurs REAP voor. Dit is een nieuw salientie-criterium dat rekening houdt met zowel de router-gate-waarden als de activatie-normen van de experts.

Formule: De salientie-score $S_j$ voor expert $j$ wordt berekend als het gemiddelde van de gewogen magnitude over de tokens waarop de expert actief is:
$S_j = \frac{1}{|X_j|} \sum_{x \in X_j} g_j(x) \cdot \|f_j(x)\|_2$
Waarbij $X_j$ de set tokens is waarop expert $j$ actief is, $g_j(x)$ de gate-waarde is, en $\|f_j(x)\|_2$ de activatie-norm.
Voordeel: In tegenstelling tot simpele frequentie-pruning (die alleen kijkt naar hoe vaak een expert wordt gebruikt), minimaliseert REAP de bovengrens van de reconstructiefout door experts te verwijderen die zelfs wanneer ze actief zijn, een minimale bijdrage leveren aan de laag-output.

Belangrijkste Resultaten

De auteurs evalueren REAP op een breed scala aan SMoE-modellen (van 20B tot 1T parameters), waaronder Qwen3-Coder-480B, Kimi-K2, GLM-4.5-Air en ERNIE-4.5.

Superioriteit op Generatieve Taken:
- Op code-generatie, creatief schrijven en wiskundig redeneren overtreft REAP consistent zowel merging-methoden (M-SMoE, HC-SMoE) als andere pruning-methoden (frequentie-based, EAN).
- Bij 50% compressie behoudt REAP bijna de volledige nauwkeurigheid op code-taken (bijv. Qwen3-Coder-480B en Kimi-K2), terwijl merging-methoden vaak catastrofale dalingen vertonen (>20% verlies).
- Merging presteert redelijk op meerkeuzevragen (MC), maar faalt op generatieve taken vanwege de verlies van dynamische controle.
Schaalbaarheid:
- REAP werkt effectief op zeer grote modellen (tot 1T parameters).
- Het is compatibel met kwantisatie (bijv. 4-bit weights), wat leidt tot extreme compressie (tot 87.5% groottevermindering) zonder significante kwaliteitsverlies.
Calibratie:
- De prestaties zijn sterk afhankelijk van de gebruikte calibratie-data. Domain-specifieke data (bijv. code-data voor code-modellen) is cruciaal voor optimale resultaten. REAP is echter robuuster dan andere methoden wanneer gecombineerde, algemene datasets worden gebruikt.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Theoretisch Bewijs: Het aantonen dat expert merging fundamenteel beperkt is door het verlies van onafhankelijke router-controle, wat leidt tot een onherleidbare fout die specifiek schadelijk is voor generatieve taken.
Nieuwe Methode (REAP): De introductie van een salientie-criterium dat de reconstructiefout minimaliseert door zowel router-gates als expert-activaties te combineren.
Empirische Validatie: Het weerleggen van het idee dat merging altijd superieur is aan pruning. De paper toont aan dat pruning, mits goed uitgevoerd, de beste strategie is voor het comprimeren van SMoE-modellen voor real-world generatieve toepassingen.
Praktische Impact: REAP maakt het mogelijk om enorme, gespecialiseerde SMoE-modellen (zoals coderingsmodellen) efficiënter te deployen in resource-beperkte omgevingen met minimale kwaliteitsverlies.

Conclusie:
Dit paper verschuift het paradigma in SMoE-compressie. Waar eerder werd aangenomen dat het samenvoegen van experts de beste weg was, toont REAP aan dat het behoud van de onafhankelijke controlemechanismen via slimme pruning (REAP) essentieel is voor het behoud van de kwaliteit van generatieve AI-modellen. De methode is schaalbaar, robuust en biedt een praktische oplossing voor de geheugenproblematiek van moderne grote taalmodellen.

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

🌾 De Oogst van de Experts: Waarom "Wegsnijden" Beter Werkt dan "Samenvoegen"

1. Het probleem met Samenvoegen: De "Smoothie"

2. De oplossing: REAP (Wegsnijden met verstand)

3. De Test: Het Kantoor in de Praktijk

4. Waarom is dit belangrijk?

Conclusie in één zin

Probleemstelling

Methodologie en Theoretische Analyse

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem