CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Dit paper introduceert CRAFT, een kostenefficiënt framework voor de replica-allokatie van experts in Mixture-of-Experts-modellen dat door middel van fijne-granulariteitsinschattingen per laag de belastingverdeling optimaliseert binnen een gegeven geheugenbudget, waardoor de doorvoersnelheid aanzienlijk wordt verhoogd zonder extra training of modelwijzigingen.

Adrian Zhao, Zhenkun Cai, Zhenyu Song, Lingfan Yu, Haozheng Fan, Jun Wu, Yida Wang, Nandita Vijaykumar

Gepubliceerd 2026-04-01
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm groot restaurant runt, een "Super-Restaurant" genaamd MoE (Mixture of Experts). Dit restaurant is zo groot dat het duizenden koks (de "experts") heeft.

In een normaal restaurant werken alle koks aan hetzelfde menu. Maar in dit Super-Restaurant werkt het anders: elke klant (een stukje tekst of een vraag) krijgt een speciale menukaart. Een slimme ober (de "router") kijkt naar de bestelling en zegt: "Ah, deze klant wil een Italiaans gerecht, dus ik stuur die naar kok 45. Die klant wil sushi, dus die gaat naar kok 12."

Het probleem?
Soms zijn bepaalde gerechten (bijvoorbeeld pizza) extreem populair. Plotseling staan er honderden mensen in de rij bij Kok 45, terwijl Kok 12 (de sushi-kok) en Kok 99 (de dessert-kok) alleen maar naar hun handen zitten te staren.

  • Kok 45 staat in de stress en maakt alles langzaam.
  • De andere koks staan te wachten.
  • Het hele restaurant vertraagt omdat iedereen moet wachten op de drukste kok.

In de wereld van kunstmatige intelligentie (AI) noemen we dit ongelijkmatige last. De computerchips (GPU's) die deze koks bedienen, raken overbelast, terwijl andere chips niets doen.

Het oude probleem: Te veel kopieën maken

Om dit op te lossen, dachten de managers van het restaurant: "Laten we gewoon meer koks voor de populaire gerechten in dienst nemen!"
Dus als Kok 45 het druk heeft, huren ze nog 10 extra koks in die exact hetzelfde doen als Kok 45. Ze noemen dit Expert Replication (het kopiëren van experts).

Maar hier zit een addertje onder het gras:
Elke nieuwe kok kost geld en ruimte in de keuken. De keuken (het computergeheugen) is al heel vol. Als je te veel extra koks huurt, is er geen ruimte meer voor de ingrediënten (de data) die nodig zijn om de bestellingen daadwerkelijk te maken. Het restaurant wordt zelfs langzamer, omdat de koks nu te veel tijd kwijt zijn aan het zoeken van een plekje in de volle keuken.

De oude methode (genaamd EPLB) was heel simpel: "Laten we bij elke laag van het restaurant precies evenveel extra koks inhuuren, ongeacht of ze het nodig hebben."
Dit resulteerde in een keuken vol met koks die niets te doen hadden, terwijl er toch nog steeds drukke plekken waren.

De nieuwe oplossing: CRAFT

De onderzoekers in dit paper hebben CRAFT bedacht. CRAFT staat voor iets als "Slimme Kostenefficiënte Koks-planning".

In plaats van blindelings overal extra koks in te huren, doet CRAFT het volgende:

  1. Het Kijken naar de Historie:
    CRAFT kijkt eerst heel precies naar de bestellingen van gisteren. "Welke gerechten waren echt populair? Welke lagen (etages) in het restaurant hadden het meest te doen?"
    Ze ontdekten dat sommige etages al heel goed verdeeld waren (daar hoef je niets te doen), terwijl andere etages extreem scheef zaten (daar is echt hulp nodig).

  2. Slimme Verdeling (De "Bakkerij"-analogie):
    Stel je voor dat je een bakkerij hebt met 10 ovens.

    • Oven 1 (de pizza-oven) staat altijd vol.
    • Oven 2 (de taart-oven) staat vaak leeg.
    • Oven 3 (de brood-oven) is soms vol, soms leeg.

    De oude methode zou zeggen: "Laten we bij elke oven 2 extra ovens bouwen." Dat kost enorm veel geld en ruimte.
    CRAFT zegt: "Wacht even. Oven 1 heeft 4 extra ovens nodig. Oven 3 heeft er 1 nodig. Oven 2 heeft helemaal geen extra ovens nodig, die staat al rustig."

    CRAFT verdeelt het budget (de ruimte in de keuken) precies daar waar het winst oplevert. Ze bouwen geen extra ovens waar ze niet nodig zijn.

  3. Het Resultaat:

    • De keuken blijft minder vol (er is meer ruimte voor ingrediënten).
    • De drukke koks krijgen precies genoeg hulp.
    • Het restaurant draait soepeler en sneller.

Waarom is dit belangrijk?

In de echte wereld betekent dit dat bedrijven die enorme AI-modellen draaien (zoals die van Google of Meta) sneller kunnen werken en minder geld hoeven uit te geven aan dure computerchips.

  • Vroeger: Je kocht 100 extra chips om de drukte op te vangen, maar je had er eigenlijk maar 60 nodig. De andere 40 stonden alleen maar te stoffen.
  • Met CRAFT: Je koopt precies de 60 chips die je nodig hebt, en je plaatst ze slim. Je krijgt 15% meer snelheid voor hetzelfde geld, of zelfs meer snelheid voor minder geld.

Samenvattend in één zin:

CRAFT is als een slimme restaurantmanager die niet overal evenveel extra personeel huurt, maar precies weet waar de drukte zit en daar slim extra handen inzet, zodat het restaurant sneller draait zonder dat de keuken volloopt met onnodige koks.