Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met 256 verschillende experts. Elke expert is een slimme assistent die gespecialiseerd is in één specifiek vakgebied: de één is een meester in wiskunde, de ander in het schrijven van verhalen, weer een ander in het vertalen van taal of het beantwoorden van medische vragen. Ze zijn allemaal getraind op basis van dezelfde grote, slimme basis (een taalmodel genaamd Phi-2), maar ze hebben zich elk gespecialiseerd in iets anders.

Nu krijg jij een vraag, maar je weet niet welk vakgebied het is. Je weet niet of het een wiskundevraag is of een verhaaltje. De vraag is: Hoe kun je deze 256 experts het beste samenwerken om het beste antwoord te geven, zonder dat je 256 keer hard hoeft te werken?

Dit artikel onderzoekt drie manieren om deze experts te laten samenwerken:

1. Het "Groepsvergadering"-model (Ensembling)

Hoe het werkt: Je roept alle 256 experts bij elkaar. Iedereen geeft zijn eigen antwoord. Dan neem je het gemiddelde van al die antwoorden om tot één beslissing te komen.

Voordeel: Het is vaak heel nauwkeurig, omdat het de "wijsheden" van iedereen combineert.
Nadeel: Het is extreem traag en duur. Je moet namelijk alle 256 experts één voor één laten werken. Alsof je 256 mensen tegelijk laat praten om één zin te vormen. Dat kost veel tijd en energie.

2. Het "Smeltkroes"-model (Merging)

Hoe het werkt: In plaats van ze allemaal te laten praten, neem je hun kennis en "smelt" je ze samen tot één nieuwe expert. Je neemt de kennis van de wiskundeleraar, de schrijver en de vertaler en mengt ze in één potje.

Voordeel: Het is supersnel. Je hebt maar één expert nodig om te werken.
Nadeel: Het werkt niet altijd goed. Stel je voor dat je een expert maakt die half wiskunde en half poëzie is. Die expert is misschien goed in het rekenen van rijmpjes, maar slecht in échte wiskunde of échte poëzie. De paper laat zien dat als je experts te veel mengt, ze elkaar verwarren en de kwaliteit daalt. Het is alsof je probeert een auto en een boot te mengen; je krijgt een raar voertuig dat op het water zinkt en op de weg niet rijdt.

3. Het "Slimme Regisseur"-model (Routing)

Hoe het werkt: Dit is de winnaar in dit onderzoek. Je hebt één regisseur die naar de vraag kijkt en beslist welke expert er moet werken.

Als de vraag over wiskunde is, schakelt de regisseur alleen de wiskundeleraar in.
Als het over een verhaal gaat, schakelt hij de schrijver in.
Soms schakelt hij een paar experts in die samenwerken, maar hij sluit de anderen uit.
Voordeel: Het is snel (want je gebruikt maar een paar experts) én het is heel nauwkeurig (want de juiste specialist doet het werk).
Nadeel: Je moet een slimme regisseur bouwen die goed kan beslissen.

De grote ontdekkingen van de paper

Eenvoud is niet altijd het beste: Als je gewoon iedereen evenveel laat meewerken (zoals bij de "groepsvergadering" of het "smeltkroes"), krijg je een goed resultaat, maar niet het beste resultaat. Als je leert om de experts slim te wegen (wie krijgt meer stemrecht?), wordt het resultaat beter.
De "Regisseur" wint: De methode waarbij je dynamisch kiest wie er werkt (Routing), werkt het allerbeste. Het is bijna net zo goed als het ideale scenario waarin je precies weet welke expert je nodig hebt (de "Orakel").
Je hebt niet iedereen nodig: Een verrassend feit is dat je niet al je 256 experts nodig hebt. Als je ze slim groepeert (bijvoorbeeld: alle wiskundevragen in één groep, alle verhalen in een andere), kun je het aantal experts terugbrengen tot slechts 10 "super-experts". Deze 10 experts werken bijna net zo goed als de 256 losse experts, maar zijn veel sneller en goedkoper.

Conclusie in het kort

Als je wilt dat je AI slim is op veel verschillende gebieden zonder dat het te traag wordt:

Laat niet iedereen tegelijk praten (te duur).
Meng niet zomaar alles door elkaar (te onnauwkeurig).
Gebruik een slimme regisseur die de juiste specialist kiest voor de juiste vraag. En als je dat te veel werk vindt, maak dan eerst een paar "super-groepen" van experts die samenwerken.

Het is alsof je in plaats van een gigantisch team dat alles tegelijk doet, een slimme manager hebt die precies weet wie hij moet sturen om de klus perfect te klaren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote taalmodellen (LLM's) die zijn fijngefineerd met lichtgewicht adapters (zoals LoRA) presteren sterk op specifieke taken. Er zijn echter duizenden van dergelijke modellen beschikbaar (bijvoorbeeld op Hugging Face), elk getraind op verschillende taken vanuit dezelfde basis. De centrale uitdaging is: Hoe kunnen we deze onafhankelijk getrainde experts optimaal combineren om een robuust, taak-agnostisch multi-task model te creëren zonder de rekenkosten te laten exploderen?

Drie hoofdstrategieën bestaan al, maar hun onderlinge afwegingen (trade-offs) en de noodzaak van geavanceerde technieken zijn niet volledig onderzocht:

Ensembling: Het combineren van de output van meerdere modellen. Dit is effectief maar duur (vereist $N$ forward passes).
Merging: Het samenvoegen van de gewichten (parameters) van de modellen in de parameter-ruimte (bijv. door gemiddelde te nemen). Dit is goedkoop bij inferentie, maar gebaseerd op de aanname van "mode connectivity" (dat modellen in dezelfde verliesvallei liggen), wat bij diverse taken niet altijd geldt.
Routing: Het dynamisch selecteren of combineren van experts op basis van de invoer (input-dependent). Dit biedt flexibiliteit, maar de complexiteit en kosten van het leren van de routeringsmechanismen zijn onduidelijk.

De auteurs stellen de vraag of de prestatieverbeteringen van geavanceerde methoden (zoals niet-uniforme gewichten of routing) de extra complexiteit en kosten rechtvaardigen ten opzichte van simpele uniformen benaderingen.

Methodologie

De auteurs evalueren deze strategieën empirisch met behulp van een bibliotheek van 256 LoRA-experts, elk fijngefineerd op een andere taak uit de Flan v2-dataset, vertrekkend van het Phi-2-LLM (2.8B parameters).

Experimentele Opzet:

Scenario: Taak-agnostisch multi-task learning. De taak-ID is tijdens de inferentie niet bekend, wat betekent dat het model zelf moet beslissen welke expert(s) het beste zijn.
Vergelijking: De auteurs vergelijken Ensembling, Merging en Routing tegen elkaar en tegen baselines (Oracle met taak-ID, een gedeelde expert, en de "Arrow"-methode).
Varianten:
- Uniform: Alle experts krijgen gelijke gewichten.
- Learned (SGD-geoptimaliseerd): De gewichten ( $\lambda_i$ ) worden geleerd via Stochastic Gradient Descent om de multi-task loss te minimaliseren.
- Routing: De gewichten zijn afhankelijk van de invoer ( $\lambda_i(x)$ ).
Expert Reductie: Om de kosten te beheersen, gebruiken ze ook een gereduceerde set van 10 "Model-Based Clustering" (MBC) experts. Deze zijn ontstaan door de 256 experts te clusteren op basis van parameter-similariteit en per cluster één expert te herscholen.

Technische Definities:

Ensembling: $p(x_t) = \sum \lambda_i p_i(x_t)$ .
Merging: $W^* = \sum \lambda_i W_i$ (gewichten worden gemiddeld).
Routing: $W^*(x) = \sum \lambda_i(x) W_i$ (gewichten variëren per input).

Belangrijkste Bijdragen en Resultaten

1. Ensembling: Uniform vs. Learned

Resultaat: Uniform ensembling (gelijk gewicht voor alle experts) is al een sterke baseline en presteert beter dan de meeste baselines (behalve de Oracle).
Verbetering: Het leren van de ensembling-coëfficiënten via SGD verbetert de prestaties verder en sluit de kloof met de Oracle.
Nadeel: Ensembling vereist $N$ forward passes, wat computatief zwaar is.
Distillatie: Het distilleren van een geoptimaliseerd ensemble naar één model verlaagt de inferentiekosten aanzienlijk, maar vereist een extra trainingsfase.

2. Merging: De beperking van Mode Connectivity

Resultaat: Uniform merging (simpel gemiddelde van gewichten) presteert significant slechter dan ensembling.
Inzicht: Dit suggereert dat de aanname van "mode connectivity" (dat modellen lineair interpolerend kunnen worden samengevoegd zonder verliesbarrières) niet geldig is voor modellen die op zeer diverse taken zijn getraind.
Learned Merging: Zelfs wanneer de merging-coëfficiënten worden geleerd (via SGD), presteert merging nog steeds onder ensembling. Global merging (dezelfde gewichten voor alle lagen) bleek zelfs beter dan layer-dependent merging.

3. Routing: De beste balans tussen prestatie en kosten

Resultaat: SGD-geoptimaliseerde routing presteert het best van alle niet-oracle methoden. Het overtreft zowel merging als ensembling.
Inzicht: Door de gewichten input-afhankelijk te maken, kan het model dynamisch kiezen welke experts relevant zijn voor een specifieke invoer. Dit benut de specialisatie van de experts veel beter dan statische merging.
Vergelijking met Arrow: De geoptimaliseerde routing is robuuster en presteert beter dan de bestaande "Arrow"-methode (een zero-shot routering), vooral omdat het minder afhankelijk is van het selecteren van een specifiek aantal top-k experts.

4. Expert Selectie en Clustering (Efficiency)

Vraag: Kunnen we het aantal experts verminderen zonder prestatieverlies?
MBC Experts: Het gebruik van de 10 geclusterde MBC-experts in plaats van de 256 private experts leidt tot betere prestaties bij ensembling en merging, waarschijnlijk omdat deze experts al zijn getraind om over meerdere taken te generaliseren.
Hierarchische Clustering: Een methode waarbij experts worden gegroepeerd en vervolgens worden samengevoegd zonder herscholing, presteert goed, maar niet zo goed als het gebruik van MBC-experts. Dit benadrukt dat herscholing per cluster waardevol is.
Greedy Selectie: Het blijkt dat slechts een subset van de experts (bijv. 150 van de 256) nodig is om de optimale prestatie te bereiken, wat aangeeft dat veel experts redundant zijn.

Significantie en Conclusie

De studie biedt een helder inzicht in de afwegingen voor multi-task learning met parameter-efficiënte experts:

Prestatie vs. Kosten:
- Als inferentiekosten geen probleem zijn, is Ensembling (bij voorkeur met geleerde gewichten) een zeer sterke, betrouwbare methode.
- Als efficiëntie cruciaal is, is Routing de superieure keuze. Het biedt de beste prestaties (dicht bij de Oracle) met slechts één forward pass, mits de routeringsparameters goed zijn geoptimaliseerd.
- Merging (gewichten samenvoegen) is de minst effectieve methode voor diverse taken, omdat de mode-connectivity aanname vaak faalt.
Praktische Implicaties:
- Simpele uniformen methoden zijn vaak goed, maar geleerde coëfficiënten (via SGD) zijn noodzakelijk voor top-prestaties.
- Het is mogelijk om het aantal experts drastisch te reduceren (via clustering of selectie) zonder grote prestatieverliezen, wat de opslag- en rekeneisen verlaagt.
- De auteurs bevelen SGD-geoptimaliseerde routing aan als de meest veelzijdige oplossing voor taak-agnostisch multi-task learning, omdat het de flexibiliteit biedt van ensembling met de efficiëntie van merging.

Kortom, de paper concludeert dat de complexiteit van routing gerechtvaardigd is door de aanzienlijke prestatiewinst, terwijl eenvoudige merging vaak tekortschiet in complexe multi-task scenario's.