EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Het artikel introduceert EvoESAP, een evolutionair zoekraamwerk dat een niet-uniforme, laag-specifieke expert-pruning toepast op Sparse Mixture-of-Experts-modellen via de ESAP-metriek, waardoor de prestaties bij open-ended generatie aanzienlijk worden verbeterd zonder de meerkeuze-accuraatheid te verliezen.

Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Probleemstelling: Een te zware koffer

Stel je voor dat je een gigantische koffer hebt vol met 100 verschillende gereedschappen (experts). Dit is een slimme AI (een Large Language Model) die gebruikmaakt van een techniek genaamd "Sparse Mixture-of-Experts" (SMoE).

  • Hoe het werkt: Als je de AI iets vraagt, kijkt een slimme "portier" (de router) welk gereedschap je nodig hebt. Hij pakt er maar een paar (bijvoorbeeld 2 of 3) uit de 100 om de taak te doen.
  • Het probleem: Hoewel de AI op het moment van werken maar een paar gereedschappen gebruikt, moet je alle 100 gereedschappen in je koffer meenemen als je op reis gaat (de server opstarten). Dit maakt de koffer enorm zwaar, kost veel ruimte (geheugen) en is traag om te verplaatsen.

De Oplossing: De koffer lichter maken (Pruning)

Om de koffer lichter te maken, willen we sommige gereedschappen weggooien. Dit noemen ze "pruning" (snoeien). Maar hoe doe je dat slim?

  1. De oude manier (Uniform snoeien):
    De meeste mensen zeggen: "Laten we in elke laag van de koffer precies 50% van de gereedschappen weggooien."

    • Analogie: Je gooit uit elke vakje in je gereedschapskoffer precies de helft van de items weg.
    • Nadeel: Sommige vakjes bevatten cruciale gereedschappen (zoals een hamer), andere bevatten nutteloze spullen (zoals een oude tandenborstel). Als je uniform snoeit, gooi je misschien per ongeluk je enige hamer weg in het ene vakje, terwijl je in een ander vakje nog steeds 50 nutteloze schroevendraaiers hebt staan die je niet nodig hebt.
  2. De nieuwe manier (EvoESAP):
    De auteurs van dit paper zeggen: "Laten we niet uniform snoeien, maar slim en ongelijk."

    • Analogie: We kijken precies welke gereedschappen het vaakst worden gebruikt en welke vakjes het belangrijkst zijn. Misschien gooien we 90% weg uit het vakje met de 'nutteloze spullen', maar houden we 90% van de 'hamers' en 'zaagjes' in het andere vakje.
    • Het resultaat is een koffer die lichter is, maar waar de belangrijkste gereedschappen nog steeds in zitten.

De Uitdaging: Hoe weet je wat belangrijk is?

Het moeilijkste deel is bepalen waar je hoeveel moet weggooien. Als je te veel weggooit uit een belangrijk vakje, wordt de AI dom. Als je te weinig weggooit uit een onbelangrijk vakje, bespaar je geen gewicht.

Vroeger probeerden mensen dit te testen door de AI duizenden keren te laten praten en te kijken of het goed antwoordde. Dit is echter extreem langzaam en duur (zoals het testen van elke auto door hem een rondje om de wereld te laten rijden).

De Innovatie: De "ESAP" - De Proefvlieg

De auteurs hebben een slimme truc bedacht, genaamd ESAP (Expected Speculative Acceptance Proxy).

  • De Analogie: Stel je voor dat je een nieuwe, lichtere auto wilt bouwen. In plaats van de auto een hele dag te laten racen (wat duur is), laat je een proefvliegen (een simulatie) zien hoe goed de nieuwe auto zou rijden als hij naast de oude, zware auto zou rijden.
  • Hoe het werkt: De ESAP kijkt niet naar het eindantwoord, maar naar de kans dat de nieuwe AI precies dezelfde gedachten heeft als de oude AI op elk klein stapje.
    • Als de nieuwe AI (de lichte versie) bijna altijd dezelfde woorden kiest als de oude AI (de zware versie), dan is hij goed.
    • Dit is veel sneller te berekenen dan het daadwerkelijk laten praten van de AI. Het is alsof je de motorluikjes meet in plaats van de auto te laten racen.

De Zoektocht: Evolutionair Zoeken (EvoESAP)

Nu hebben ze een meetlat (ESAP), maar ze weten nog niet precies hoe ze de gereedschappen moeten verdelen. Daarom gebruiken ze een evolutionaire zoektocht.

  • De Analogie: Stel je voor dat je een team van 32 ontwerpers hebt.
    1. Ze maken allemaal een eigen plan om de koffer in te delen (sommige gooien veel weg uit vakje 1, anderen uit vakje 2).
    2. Ze testen hun plannen met de snelle ESAP-methode.
    3. De beste ontwerpen worden geselecteerd.
    4. Deze beste ontwerpen "kruisen" met elkaar: ze nemen een beetje van plan A en een beetje van plan B, en maken een nieuw plan.
    5. Ze herhalen dit proces tientallen keren.
  • Het resultaat: Uiteindelijk vinden ze een plan dat niemand vooraf had bedacht: een heel specifieke verdeling waarbij ze in het ene vakje 80% weggooien en in het andere vakje maar 10%. Dit plan werkt vaak veel beter dan het standaard "50% overal" plan.

Wat levert dit op?

De tests tonen aan dat deze methode (EvoESAP) wonderen doet:

  • Minder gewicht: De AI is veel lichter en sneller.
  • Beter presteren: Vooral bij creatieve taken (zoals het schrijven van verhalen of het oplossen van wiskundige problemen) is de nieuwe AI veel beter dan de oude "uniforme" versie.
  • Geen verlies: Bij simpele meerkeuzevragen blijft het net zo goed als voorheen.

Samenvatting in één zin

In plaats van willekeurig of gelijkmatig gereedschap uit je AI-koffer te gooien, gebruikt EvoESAP een slimme, snelle simulator om te ontdekken precies welke gereedschappen je in welke vakjes kunt weggooien, zodat je een lichte koffer krijgt die net zo goed werkt als de zware originele versie.