Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

Dit paper introduceert een nieuwe schaalwet voor Mixture-of-Experts-modellen die een optimale machtsverhouding tussen expert- en attentie-berekeningen definieert, waardoor efficiëntere modelontwerpen mogelijk zijn binnen vaste rekenbudgetten.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm groot restaurant runt, een soort "Super-Restaurant" dat miljoenen klanten (de taalmodellen) tegelijk moet bedienen. In de wereld van kunstmatige intelligentie noemen we dit een Mixture-of-Experts (MoE) model.

In dit restaurant heb je twee soorten personeel:

  1. De Chef-koks (De Experts): Deze mensen zijn gespecialiseerd. De ene is een meester in het maken van sushi, de andere in het bakken van brood. Ze doen het zware werk: het daadwerkelijk "denken" en het verwerken van complexe informatie.
  2. De Serveerders (De Aandacht): Deze mensen lopen rond met bestellingen. Ze kijken naar de klant, beslissen welke chef-kok het beste bij de bestelling past, en zorgen dat de juiste informatie op het juiste moment wordt opgehaald. Ze regelen de "aandacht" voor wat er gebeurt.

Het Probleem: De Stroomrekening

Elke dag heb je een vast bedrag aan elektriciteit (rekenkracht of "compute") om het restaurant te runnen. Je kunt niet oneindig veel stroom gebruiken; je hebt een budget.

De grote vraag die onderzoekers zich altijd stelden, was: "Hoe verdelen we die stroom? Moeten we meer geld steken in het betalen van de chefs (meer kennis) of in het betalen van de serveerders (beter organiseren)?"

Vroeger dachten mensen: "Oh, we doen het gewoon zoals in de oude, dichte restaurants (oude modellen). Dat werkt wel." Maar dit nieuwe type restaurant werkt anders. Als je te veel geld in de chefs steekt, maar te weinig in de serveerders, weten de chefs niet wat ze moeten doen. Als je te veel in de serveerders steekt, hebben ze geen goede chefs om het werk te doen.

De Ontdekking: Het is geen vast recept

De auteurs van dit paper hebben ontdekt dat er geen vast recept is. Je kunt niet zeggen: "We geven altijd 60% aan de chefs en 40% aan de serveerders."

Het hangt af van twee dingen:

  1. Hoe groot is je restaurant? (Hoeveel rekenkracht heb je?)
  2. Hoeveel chefs zijn er eigenlijk aan het werk? (Dit noemen ze "sparsiteit". Soms werken er maar een paar chefs per klant, soms veel meer).

De "Wet van de Super-Restaurant"

De onderzoekers hebben een nieuwe wet ontdekt, een soort formule voor perfectie. Ze noemen het een "power-law" (een wiskundige wet die zegt dat dingen in een specifiek patroon groeien).

Hier is wat ze hebben gevonden, vertaald naar onze analogie:

  • Als je restaurant klein is: Je hebt niet veel stroom. Dan is het slim om de serveerders (aandacht) goed te betalen. Ze moeten de klanten goed in de gaten houden.
  • Als je restaurant gigantisch wordt: Naarmate je meer stroom krijgt, moet je steeds meer steken in de chefs (de experts). Hoe groter je wordt, hoe meer je moet investeren in de specialisten die het zware werk doen.
  • De "Sparsiteit" factor: Als je restaurant zo is ingericht dat er maar heel weinig chefs per klant werken (hoge sparsiteit), moet je de serveerders juist weer iets meer aandacht geven. Maar als er veel chefs werken, kun je de chefs nog meer laten groeien.

Waarom is dit belangrijk?

Stel je voor dat je een nieuw restaurant opent met een vast budget.

  • Zonder deze wet: Je zou misschien denken: "Ik geef 50% aan chefs en 50% aan serveerders." Dat zou kunnen betekenen dat je geld verspeelt. Misschien heb je te veel serveerders die wachten op chefs die niet genoeg kunnen doen, of andersom.
  • Met deze wet: Je hebt een exacte formule. Je zegt: "Oké, mijn restaurant is zo groot en mijn chefs werken zo spaarzaam. Volgens de formule moet ik 70% van mijn stroom naar de chefs sturen en 30% naar de serveerders."

Dit zorgt ervoor dat je restaurant perfect draait met precies hetzelfde budget. Je krijgt meer kwaliteit (beter taalvermogen) zonder dat je meer geld hoeft uit te geven.

De Samenvatting in één zin

Dit paper zegt eigenlijk: "Stop met gokken over hoe je je rekenkracht verdeelt tussen het 'denken' en het 'organiseren' in AI-modellen. Er is een slimme, voorspelbare regel die zegt dat hoe groter je model wordt, hoe meer je moet investeren in de 'denkers' (experts), maar dit hangt wel af van hoe je het personeel indeelt."

Het is alsof je eindelijk de perfecte bouwwijze hebt gevonden voor een wolkenkrabber: je weet precies hoeveel beton je nodig hebt voor de fundering (aandacht) en hoeveel voor de verdiepingen (experts), afhankelijk van hoe hoog je wilt bouwen.