Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts

Deze studie onderzoekt de trade-offs tussen ensembling, merging en routing voor het fuseren van parameter-efficiënte experts en concludeert dat hoewel niet-uniforme methoden prestaties verbeteren, routing de grootste winst biedt, waarbij cluster- en greedy-selectie technieken de rekentijd van routing kunnen beperken.

Sanae Lotfi, Lucas Caccia, Alessandro Sordoni, Jordan T. Ash, Miroslav Dudik

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met 256 verschillende experts. Elke expert is een slimme assistent die gespecialiseerd is in één specifiek vakgebied: de één is een meester in wiskunde, de ander in het schrijven van verhalen, weer een ander in het vertalen van taal of het beantwoorden van medische vragen. Ze zijn allemaal getraind op basis van dezelfde grote, slimme basis (een taalmodel genaamd Phi-2), maar ze hebben zich elk gespecialiseerd in iets anders.

Nu krijg jij een vraag, maar je weet niet welk vakgebied het is. Je weet niet of het een wiskundevraag is of een verhaaltje. De vraag is: Hoe kun je deze 256 experts het beste samenwerken om het beste antwoord te geven, zonder dat je 256 keer hard hoeft te werken?

Dit artikel onderzoekt drie manieren om deze experts te laten samenwerken:

1. Het "Groepsvergadering"-model (Ensembling)

Hoe het werkt: Je roept alle 256 experts bij elkaar. Iedereen geeft zijn eigen antwoord. Dan neem je het gemiddelde van al die antwoorden om tot één beslissing te komen.

  • Voordeel: Het is vaak heel nauwkeurig, omdat het de "wijsheden" van iedereen combineert.
  • Nadeel: Het is extreem traag en duur. Je moet namelijk alle 256 experts één voor één laten werken. Alsof je 256 mensen tegelijk laat praten om één zin te vormen. Dat kost veel tijd en energie.

2. Het "Smeltkroes"-model (Merging)

Hoe het werkt: In plaats van ze allemaal te laten praten, neem je hun kennis en "smelt" je ze samen tot één nieuwe expert. Je neemt de kennis van de wiskundeleraar, de schrijver en de vertaler en mengt ze in één potje.

  • Voordeel: Het is supersnel. Je hebt maar één expert nodig om te werken.
  • Nadeel: Het werkt niet altijd goed. Stel je voor dat je een expert maakt die half wiskunde en half poëzie is. Die expert is misschien goed in het rekenen van rijmpjes, maar slecht in échte wiskunde of échte poëzie. De paper laat zien dat als je experts te veel mengt, ze elkaar verwarren en de kwaliteit daalt. Het is alsof je probeert een auto en een boot te mengen; je krijgt een raar voertuig dat op het water zinkt en op de weg niet rijdt.

3. Het "Slimme Regisseur"-model (Routing)

Hoe het werkt: Dit is de winnaar in dit onderzoek. Je hebt één regisseur die naar de vraag kijkt en beslist welke expert er moet werken.

  • Als de vraag over wiskunde is, schakelt de regisseur alleen de wiskundeleraar in.
  • Als het over een verhaal gaat, schakelt hij de schrijver in.
  • Soms schakelt hij een paar experts in die samenwerken, maar hij sluit de anderen uit.
  • Voordeel: Het is snel (want je gebruikt maar een paar experts) én het is heel nauwkeurig (want de juiste specialist doet het werk).
  • Nadeel: Je moet een slimme regisseur bouwen die goed kan beslissen.

De grote ontdekkingen van de paper

  • Eenvoud is niet altijd het beste: Als je gewoon iedereen evenveel laat meewerken (zoals bij de "groepsvergadering" of het "smeltkroes"), krijg je een goed resultaat, maar niet het beste resultaat. Als je leert om de experts slim te wegen (wie krijgt meer stemrecht?), wordt het resultaat beter.
  • De "Regisseur" wint: De methode waarbij je dynamisch kiest wie er werkt (Routing), werkt het allerbeste. Het is bijna net zo goed als het ideale scenario waarin je precies weet welke expert je nodig hebt (de "Orakel").
  • Je hebt niet iedereen nodig: Een verrassend feit is dat je niet al je 256 experts nodig hebt. Als je ze slim groepeert (bijvoorbeeld: alle wiskundevragen in één groep, alle verhalen in een andere), kun je het aantal experts terugbrengen tot slechts 10 "super-experts". Deze 10 experts werken bijna net zo goed als de 256 losse experts, maar zijn veel sneller en goedkoper.

Conclusie in het kort

Als je wilt dat je AI slim is op veel verschillende gebieden zonder dat het te traag wordt:

  1. Laat niet iedereen tegelijk praten (te duur).
  2. Meng niet zomaar alles door elkaar (te onnauwkeurig).
  3. Gebruik een slimme regisseur die de juiste specialist kiest voor de juiste vraag. En als je dat te veel werk vindt, maak dan eerst een paar "super-groepen" van experts die samenwerken.

Het is alsof je in plaats van een gigantisch team dat alles tegelijk doet, een slimme manager hebt die precies weet wie hij moet sturen om de klus perfect te klaren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →