Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een gigantisch team van experts bouwt om een heel slimme robot te maken. Deze robot moet twee dingen kunnen: feiten onthouden (zoals hoofdsteden of historische data) en redeneren (zoals wiskundeproblemen oplossen of code schrijven).
In de wereld van kunstmatige intelligentie (AI) gebruiken we vaak een architectuur die MoE (Mixture of Experts) heet. Dit werkt als een groot kantoor met duizenden specialisten. Maar omdat het te duur en te traag is om alle specialisten tegelijk te laten werken, kiezen we er voor elke vraag slechts een paar uit. Dit heet sparsiteit (of 'verspreiding'): hoe minder experts je per vraag inschakelt, hoe 'spijker' het systeem is.
De onderzoekers van dit paper (uit ICLR 2026) hebben een groot experiment gedaan om te ontdekken: Hoeveel experts moeten we eigenlijk inschakelen om de slimste robot te krijgen?
Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:
1. Het Grote Misverstand: "Meer is altijd beter"
Vroeger dachten mensen: "Als ik mijn robot meer 'hersencellen' (parameters) geef, wordt hij automatisch slimmer."
- Voor het onthouden van feiten: Dit klopt. Als je een robot meer experts geeft (zelfs als ze maar zelden werken), onthoudt hij meer feiten. Het is alsof je een bibliotheek uitbreidt met meer boeken; hoe meer boeken, hoe meer je kunt opzoeken.
- Voor het redeneren: Hier gaat het mis. De onderzoekers ontdekten dat als je te veel experts toevoegt zonder de hoeveelheid 'werk' (rekenkracht) per expert te verhogen, de robot op redeneertaken juist dommer wordt. Het is alsof je een team van 1000 ingenieurs hebt, maar ze moeten allemaal samenwerken aan één klein probleem. Ze gaan elkaar in de weg zitten, communiceren slecht en raken in de war.
2. De Twee Regels voor Slimme Robots
De paper introduceert twee simpele regels om de perfecte balans te vinden:
Regel A: De "Actieve Werkkracht" (Active FLOPs)
Stel je voor dat je een groepje experts hebt.
- Scenario 1: Je hebt 100 experts, maar je laat er maar 2 werken.
- Scenario 2: Je hebt 20 experts, en je laat er 10 werken.
Zelfs als beide scenario's evenveel tijd en geld kosten om te trainen, wint Scenario 2.
De les: Het is belangrijker dat de experts die echt aan het werk zijn (de actieve experts) goed worden ingezet, dan dat je een enorme berg experts hebt die zelden iets doen. Voor redeneren heb je een grotere "actieve werkkracht" nodig.
Regel B: De "Lesuur-per-Expert" (Tokens per Parameter)
Dit gaat over hoeveel informatie elke expert krijgt om te leren.
- Feiten onthouden: Je wilt dat elke expert veel boeken leest. Je hebt dus veel experts nodig die elk een klein beetje informatie krijgen. Dit is "parameter-hongerig".
- Redeneren: Je wilt dat elke expert veel oefent. Als je te veel experts hebt voor de hoeveelheid trainingstijd, krijgt elke expert te weinig oefenmateriaal. Ze worden dan "ondervoed".
De les: Voor redeneren is er een "gouden middenweg". Je hebt ongeveer 20 woorden (tokens) per expert nodig. Als je meer experts toevoegt zonder meer tekst te geven, worden de experts te hongerig en leren ze niet goed redeneren.
3. De "Nabootsing" (Post-Training) Lost het Niet Op
Je zou denken: "Oké, als de robot tijdens het leren (pre-training) verkeerd is ingesteld, kunnen we hem later niet gewoon bijleren met speciale technieken (zoals Reinforcement Learning of GRPO)?"
Het antwoord is nee.
Het is alsof je een student hebt die tijdens zijn schooltijd (pre-training) verkeerde methoden heeft geleerd. Je kunt hem later wel extra huiswerk geven of een coach aanstellen (post-training), maar als de basisstructuur van zijn denken (de sparsiteit) niet klopt, blijft hij vastlopen bij moeilijke problemen. De fout zit in de architectuur, niet in de motivatie.
4. De Conclusie: Het is een Balansoefening
De onderzoekers zeggen dat we de oude regels moeten herschrijven:
- Wil je een feitenmachine? Maak je systeem zo verspreid (spars) mogelijk met heel veel experts.
- Wil je een redeneermachine? Zorg dan dat je niet te verspreid bent. Houd de experts dichterbij elkaar (minder sparsiteit) en zorg dat ze genoeg oefenmateriaal krijgen.
Kort samengevat in een metafoor:
Stel je voor dat je een orkest dirigeert.
- Voor het onthouden van muziekstukken (feiten), wil je een enorm orkest met honderden muzikanten, maar je speelt maar een paar noten tegelijk. Hoe meer muzikanten, hoe meer repertoire je hebt.
- Voor het improviseren en componeren (redeneren), wil je een kleinere, hechte groep muzikanten die intensief samenwerkt. Als je te veel muzikanten toevoegt zonder meer tijd te geven om samen te repeteren, ontstaat er chaos en klinkt het niet goed.
De kunst is dus niet om zo groot mogelijk te zijn, maar om de juiste verhouding te vinden tussen het aantal experts en hoeveel werk ze per seconde doen.