MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm groot team van specialisten hebt om een moeilijke vraag te beantwoorden. In een gewone computer (een "Vision-Language Model") zijn dit allemaal experts die samenwerken om beelden en tekst te begrijpen.

In de huidige systemen is er echter een probleem: er is een manager die bij elke zin of elk beeldje beslist welke experts erbij moeten komen. Deze manager is echter een beetje star. Hij kijkt alleen naar wie er het hardst schreeuwt (de hoogste score) en kiest altijd dezelfde 2 of 3 experts. Dit is als een chef-kok die altijd alleen de beste kok aan het fornuis zet, en nooit de andere koks in de keuken laat meewerken. Het resultaat? De geselecteerde experts worden heel goed in één ding, maar ze "leren" niet echt van de rest, en het team wordt niet flexibel genoeg voor nieuwe situaties.

Dit artikel introduceert MoE-GRPO, een slimme nieuwe manier om dit team te trainen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Starre Manager

Huidige systemen gebruiken een "Top-K" methode. De manager kijkt naar 8 experts, kiest de 2 met de hoogste scores en laat de rest buiten de deur.

Het nadeel: De manager probeert nooit iets anders. Hij denkt: "Expert A en B werken altijd goed, dus ik kies ze altijd." Hierdoor worden A en B overbelast (ze "overfitten") en leren ze niet om samen te werken met C, D of E. Als de situatie verandert (bijvoorbeeld van een foto naar een video), faalt het team omdat het te star is.

2. De Oplossing: Een Trainingskamp met Spelletjes (RL & GRPO)

De auteurs stellen voor om de manager niet meer te laten beslissen op basis van vaste regels, maar hem te laten leren door te spelen.

Het Spel (Rollouts): In plaats van één keer te kiezen, laten we de manager in één sessie 8 keer (rollouts) een andere combinatie van experts kiezen voor dezelfde vraag.
- Ronde 1: Hij kiest Experts A en B. Het antwoord is fout.
- Ronde 2: Hij kiest Experts C en D. Het antwoord is goed!
- Ronde 3: Hij kiest Experts A en E. Het antwoord is weer fout.
De Beloning (Reward): Na elke ronde krijgt de manager een puntje als het antwoord goed is.
De Leerervaring (GRPO): De manager kijkt naar zijn 8 rondes en denkt: "Hé, elke keer als ik C en D koos, kreeg ik punten. Als ik A en B koos, kreeg ik niks. De volgende keer kies ik vaker C en D."

Dit noemen ze Group Relative Policy Optimization (GRPO). Het is alsof je een speler niet vertelt hoe hij moet winnen, maar hem laat spelen, hem beloningen geeft, en hem laat zien welke strategieën het beste werken. De manager leert zo een flexibel beleid: "Voor dit soort vragen kies ik experts C en D, maar voor dat soort kies ik A en F."

3. De Slimme Hulp: De "Modality-Aware" Gids

Er is nog een probleem: als je de manager volledig vrij laat, kan hij gekke combinaties proberen die nooit werken (bijvoorbeeld een expert die alleen voor tekst is gebruiken voor een foto van een hond). Dat is tijdverspilling.

Daarom voegen ze een modality-aware router guidance toe.

De Analogie: Stel je voor dat de manager een kompas heeft. Als er een foto wordt getoond, zegt het kompas: "Kijk, deze experts zijn gespecialiseerd in beelden, probeer die! Vergeet de experts die alleen tekst lezen, die zijn hier nutteloos."
Dit zorgt ervoor dat de manager niet tijd verspilt aan het testen van experts die nooit bij het juiste type informatie passen. Het maakt het trainen sneller en stabieler.

4. Het Resultaat: Een Super Team

Wat levert dit op?

Geen meer "Overfitting": De experts worden niet allemaal hetzelfde. Ze leren hun eigen specialiteit, maar weten ook wanneer ze moeten samenwerken met anderen.
Beter Generaliseren: Omdat het team veel verschillende combinaties heeft getest, werkt het beter op nieuwe, onbekende vragen (bijvoorbeeld video's in plaats van alleen foto's).
Diversiteit: In plaats van dat 2 experts 90% van het werk doen, wordt het werk eerlijker verdeeld over het hele team.

Samenvatting in één zin

MoE-GRPO is als het trainen van een super-team van experts door ze niet te dwingen tot vaste regels, maar ze te laten spelen met verschillende combinaties, ze te belonen voor succes, en ze een slim kompas te geven zodat ze niet op zoek gaan naar experts die voor hun taak niet geschikt zijn. Hierdoor wordt het systeem slimmer, sneller en beter in het begrijpen van de wereld om ons heen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Mixture-of-Experts (MoE) is een architectuur die de computationele kosten van Transformer-modellen verlaagt door slechts een subset van parameters (experts) per token te activeren, terwijl de totale modelcapaciteit hoog blijft. Dit concept is recent toegepast op Vision-Language Models (VLMs) voor schaalbaar multimodaal begrip.

De huidige standaard voor expert-selectie in MoE is deterministische Top-K routing. Hierbij kiest een 'gating' mechanisme voor elk token de $K$ experts met de hoogste scores. De auteurs identificeren twee belangrijke beperkingen van deze aanpak:

Gebrek aan exploratie: De deterministische keuze beperkt de exploratie van diverse expert-combinaties. Het model kan suboptimale combinaties missen.
Expert overfitting: Het model neigt om zich te specialiseren op een kleine subset van experts, wat leidt tot overfitting en een gebrek aan generalisatievermogen.

Bestaande pogingen om dit op te lossen (zoals het toevoegen van ruis aan de scores) zijn heuristisch en optimaliseren niet expliciet het selectiebeleid ('policy').

2. Methodologie: MoE-GRPO

De auteurs stellen MoE-GRPO voor, een framework dat expert-routing optimaliseert met behulp van Versterkingsleer (Reinforcement Learning - RL), specifiek het Group Relative Policy Optimization (GRPO) algoritme.

Kernconcepten

Selectie als Sequentiële Besluitvorming: In plaats van een statische keuze, wordt expert-selectie geformuleerd als een sequentieel besluitvormingsprobleem. Een "actie" is het selecteren van de $K$ experts voor een specifiek token in een specifieke laag.
GRPO-toepassing: Het model genereert meerdere "rollouts" (stochastische routes van expert-selecties) voor dezelfde input. Een beloningsfunctie (reward) evalueert de outputkwaliteit. Het beleid wordt geoptimaliseerd door de relatieve voordelen (advantages) binnen deze groep rollouts te gebruiken, waardoor het model leert welke expert-combinaties leiden tot hogere beloningen.

Twee Sub-doelstellingen

Om zowel de generatie van tokens als de routing te optimaliseren, bestaat de totale loss-functie uit twee delen:

Token-GRPO: Optimaliseert de kwaliteit van de gegenereerde token-sequentie. Het bestraft token-generaties die voortkomen uit lage-reward expert-selecties.
Gate-GRPO: Optimaliseert direct de gating-netwerken (de routers) op elke laag. Dit biedt dichte supervisie voor het routing-proces zelf, zodat de router leert welke experts het meest effectief zijn voor specifieke taken.

Modality-Aware Router Guidance

Om de inefficiëntie van het verkennen van een enorme zoekruimte te verminderen, introduceren de auteurs een modality-aware router guidance.

Principe: Het systeem berekent "modality-awareness scores" voor elke expert (hoe vaak wordt een expert geselecteerd voor visuele vs. tekstuele tokens?).
Implementatie: Experts die zelden worden geactiveerd voor een specifieke modality (bijv. visuele experts voor tekst-tokens) worden tijdelijk gedeactiveerd (hun scores worden op $-\infty$ gezet).
Doel: Dit beperkt de exploratie tot experts die relevant zijn voor de input-modality, wat de trainingsstabiliteit en -efficiëntie verbetert zonder de diversiteit volledig te elimineren.

3. Belangrijkste Bijdragen

MoE-GRPO Framework: Het is het eerste werk dat expert-selectie in VLMs formuleert als een sequentieel besluitvormingsprobleem en optimaliseert via RL.
Modality-Aware Guidance: Een nieuwe mechanisme die de router leidt naar modality-relevante experts, wat over-exploratie van irrelevante experts voorkomt.
Combinatie van Token- en Gate-Optimalisatie: Het tonen van de noodzaak om zowel de output-generatie (Token-GRPO) als de routing-logica (Gate-GRPO) gezamenlijk te optimaliseren voor beste resultaten.

4. Resultaten

De auteurs evalueren MoE-GRPO op diverse benchmarks voor beeld- en video-begrip (bijv. MMBench, MMStar, VideoMME) en op cross-dataset generalisatie (CLIP-MoE).

Prestatieverbetering: MoE-GRPO presteert consistent beter dan standaard deterministische Top-K routing (Det-FT) en varianten met stochastische ruis of multinomiale sampling. Op de multimodale benchmarks scoort het gemiddeld 2.0% tot 2.3% hoger dan de baselines.
Generalisatie: Bij cross-dataset evaluatie (ImageNet naar andere datasets) en domein-generalisatie (out-of-domain datasets) toont MoE-GRPO aanzienlijk minder overfitting en betere transferability dan deterministische methoden.
Ablatie Studies:
- Zowel Token-GRPO als Gate-GRPO zijn noodzakelijk; het gebruik van slechts één component leidt tot significant lagere prestaties.
- De modality-aware guidance levert betere resultaten op dan modality-agnostische methoden (zoals puur ruis toevoegen), met snellere convergentie en lagere variantie in de beloning.
Expert Diversiteit: Visualisaties tonen aan dat MoE-GRPO een meer evenwichtige verdeling van expert-gebruik bereikt (hogere entropie) en leidt tot taak-specifieke specialisatie van experts, in tegenstelling tot de over-specialisatie bij deterministische routing.

5. Betekenis en Conclusie

Dit paper biedt een fundamentele verschuiving in hoe MoE-architecturen voor VLMs worden getraind. In plaats van te vertrouwen op statische, deterministische routing, introduceert het een adaptieve, leerzame routing-strategie gedreven door versterkingsleer.

De belangrijkste implicaties zijn:

Efficiëntie: Het toont aan dat het mogelijk is om de rekenkracht van MoE-modellen te maximaliseren door dynamisch de juiste experts te kiezen op basis van de taak, in plaats van een vaste regel.
Stabiliteit: De "modality-aware" component lost het probleem op van instabiele RL-training in grote zoekruimtes.
Toekomst: Het bewijst dat RL een krachtig instrument is om niet alleen de output van modellen te verbeteren, maar ook de interne architecturale keuzes (routing) te optimaliseren, wat leidt tot robuustere en generaliserendere multimodale modellen.