MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der überforderte Chef

Stell dir vor, du hast eine riesige Firma (das ist dein KI-Modell), die Bilder und Videos verstehen soll. Um diese Firma effizient zu machen, hast du nicht einen riesigen, teuren Büroblock, sondern ein Mixture-of-Experts (MoE)-System.

Das bedeutet: Anstatt dass jeder Mitarbeiter an jeder Aufgabe mitarbeitet, gibt es 800 Spezialisten (die „Experten"). Wenn eine Frage reinkommt (z. B. „Wie viele Hunde sind auf dem Bild?"), schaut ein Türsteher (der Router) kurz hin und entscheidet: „Okay, für diese Frage brauchen wir nur die 2 besten Experten aus der großen Gruppe."

Das Problem: Der Türsteher macht das bisher sehr stur. Er schaut immer nur auf die ersten beiden Namen auf einer Liste und wählt immer dieselben zwei aus, egal ob die Frage leicht oder schwer ist.

Die Folge: Diese zwei Experten werden überlastet und lernen nur für diese Art von Fragen. Die anderen 798 Experten werden faul und vergessen, wie man andere Dinge macht. Das nennt man „Überanpassung" (Overfitting). Das System wird unflexibel.

Die Lösung: MoE-GRPO – Das Glücksspiel mit Belohnung

Die Autoren dieses Papiers haben eine neue Methode namens MoE-GRPO entwickelt. Sie wollen den Türsteher nicht mehr starr sein lassen, sondern ihm beibringen, intelligent zu experimentieren.

Stell dir MoE-GRPO wie ein Rollenspiel mit vielen Durchläufen vor:

Der Zufall (Exploration): Anstatt nur die „besten" zwei Experten zu nehmen, lässt der Türsteher jetzt ein bisschen Glück im Spiel. Er sagt: „Okay, für diese Frage probieren wir mal zufällig verschiedene Kombinationen von Experten aus."
- Durchlauf 1: Wir nehmen Experten A und B.
- Durchlauf 2: Wir nehmen Experten C und D.
- Durchlauf 3: Wir nehmen Experten E und F.
Die Bewertung (Reward): Das System prüft dann: „Welche Kombination hat die richtige Antwort geliefert?"
- Wenn Experten A und B die richtige Antwort gaben, bekommen sie einen Goldstern (Belohnung).
- Wenn Experten C und D danebenliegen, bekommen sie einen roten Strich (keine Belohnung).
Das Lernen (Optimierung): Das System merkt sich: „Aha! Wenn wir eine Frage über Hunde haben, sind Experten A und B super. Aber bei Fragen über Autos waren C und D besser."
- Statt stur die Liste abzuarbeiten, lernt der Türsteher eine Strategie: „Für Bildfragen wähle ich eher Experten, die gut mit Bildern umgehen. Für Textfragen wähle ich andere."

Der spezielle Trick: Der „Modality-Aware" Kompass

Ein großes Problem beim Zufallsspiel ist, dass man viel Zeit verschwendet, wenn man völlig falsche Wege geht. Stell dir vor, du versuchst, ein Bild zu beschreiben, aber du wählst zufällig einen Experten aus, der nur für Mathematik zuständig ist. Das bringt nichts.

Deshalb haben die Autoren einen Kompass eingebaut (die modality-aware router guidance).

Wenn das System ein Bild sieht, sagt der Kompass dem Türsteher: „Hey, such dir nur Experten aus, die Bilder lieben! Vergiss die Text-Experten für den Moment."
Das macht das Lernen viel schneller und stabiler, weil das System nicht in Sackgassen läuft.

Was bringt das alles?

Die Ergebnisse sind beeindruckend:

Bessere Antworten: Das System wird in Tests (Benchmarks) deutlich besser als die alten, sturen Methoden.
Fairere Verteilung: Nicht nur zwei Experten arbeiten bis zum Umfallen; alle Spezialisten kommen zum Zug und werden trainiert.
Robustheit: Das System funktioniert auch dann gut, wenn es auf völlig neue Arten von Bildern trifft, die es vorher noch nie gesehen hat.

Zusammenfassung in einem Satz

MoE-GRPO verwandelt einen starren Türsteher, der immer dieselben zwei Leute aussucht, in einen klugen Manager, der durch viel Ausprobieren und Belohnung lernt, genau den richtigen Spezialisten für jede einzelne Aufgabe auszuwählen – und dabei hilft ihm ein Kompass, nicht die falschen Leute zu wählen.

Das Ergebnis ist eine KI, die schlauer, flexibler und effizienter ist, weil sie ihre gesamte „Belegschaft" besser nutzt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mixture-of-Experts (MoE) Architekturen haben sich als effektive Methode etabliert, um den Rechenaufwand von Transformer-Modellen zu reduzieren, indem für jedes Token nur eine Teilmenge der Parameter aktiviert wird. Diese Technik wurde erfolgreich auf Vision-Language Models (VLMs) übertragen, um skalierbares multimodales Verständnis bei geringeren Kosten zu ermöglichen.

Das zentrale Problem liegt jedoch im weit verbreiteten deterministischen Top-K-Routing-Mechanismus. Bei diesem Ansatz werden für jedes Token die $K$ Experten mit den höchsten Gating-Scores deterministisch ausgewählt. Dies führt zu folgenden Nachteilen:

Eingeschränkte Exploration: Das Modell kann keine vielfältigen Kombinationen von Experten erkunden und übersieht möglicherweise optimalere Routing-Pfade.
Experten-Überanpassung (Overfitting): Das Modell neigt dazu, sich auf eine kleine Teilmenge von Experten zu spezialisieren, was die Generalisierungsfähigkeit beeinträchtigt.
Fehlende Optimierung der Routing-Policy: Bisherige Ansätze (wie das Hinzufügen von Gaußschem Rauschen) behandeln die Expertenwahl nur heuristisch und optimieren nicht explizit die „Policy" der Expertenwahl als Entscheidungsproblem.

2. Methodik: MoE-GRPO

Die Autoren schlagen MoE-GRPO vor, ein Framework, das auf Reinforcement Learning (RL) basiert und speziell die Experten-Routing-Strategie in MoE-basierten VLMs optimiert.

Kernkonzept

Die Expertenwahl wird als sequenzielles Entscheidungsproblem formuliert. Anstatt nur die Token-Generierung zu optimieren, wird die Auswahl der Experten in jeder Schicht als eine Aktion innerhalb einer Policy betrachtet.

Der Algorithmus (GRPO)

Das Framework nutzt Group Relative Policy Optimization (GRPO), eine Variante von PPO (Proximal Policy Optimization):

Rollouts: Für einen Eingabe-Prompt werden $G$ verschiedene „Rollouts" (Trajektorien) generiert. In jedem Rollout werden stochastisch $K$ Experten pro Token und Schicht ausgewählt.
Belohnung (Reward): Basierend auf der Ausgabe (z. B. Korrektheit der Antwort) wird ein Reward berechnet.
Advantage-Berechnung: Innerhalb einer Gruppe von Rollouts wird der relative Vorteil ( $\hat{A}$ ) berechnet, indem der Reward eines Rollouts vom Durchschnitt der Gruppe abgezogen und durch die Standardabweichung normalisiert wird.
Optimierung: Die Policy wird so aktualisiert, dass Aktionen (Experten-Wahlen), die zu höheren relativen Belohnungen führen, verstärkt werden, während solche mit niedrigeren Belohnungen unterdrückt werden.

Zwei-Teil-Zielfunktion

MoE-GRPO optimiert zwei Ziele gleichzeitig:

Token-GRPO: Optimiert die Qualität der generierten Token-Sequenz (wie bei Standard-GRPO).
Gate-GRPO: Optimiert direkt die Gating-Funktionen (Router) in jeder Schicht. Dies ermöglicht eine dichte, feinkörnige Überwachung der Routing-Entscheidungen auf Ebene der Expertenwahl, nicht nur auf Ebene der Ausgabe.

Modality-Aware Router Guidance

Um die Effizienz und Stabilität des Trainings zu erhöhen, führen die Autoren eine modality-aware router guidance ein:

Da VLMs visuelle und textuelle Eingaben verarbeiten, werden Experten oft spezifisch für eine Modalität aktiviert.
Das System berechnet „Modality-Awareness Scores" für jeden Experten (basierend auf der Häufigkeit der Aktivierung für visuelle vs. textuelle Tokens).
Experten, die für eine bestimmte Modalität selten aktiviert werden, werden durch Setzen ihrer Gating-Scores auf $-\infty$ deaktiviert.
Dies reduziert den Suchraum unnötiger Exploration und lenkt das RL-Training auf modality-relevante Experten, was zu stabilerem und schnellerem Konvergenzverhalten führt.

3. Wichtige Beiträge

Erste RL-basierte Formulierung: MoE-GRPO ist die erste Arbeit, die die Expertenwahl in MoE-Modellen explizit als sequenzielles Entscheidungsproblem formuliert und mittels RL optimiert.
Gate-GRPO Mechanismus: Einführung eines spezifischen Verlustterms, der die Routing-Entscheidungen der Gating-Netzwerke direkt optimiert, anstatt nur die Endausgabe zu betrachten.
Modality-Aware Guidance: Ein Mechanismus, der die Exploration auf Experten beschränkt, die für die jeweilige Eingabe-Modalität (Bild/Video vs. Text) relevant sind, was die Trainingsstabilität verbessert.
Umfassende Evaluation: Demonstration der Überlegenheit gegenüber deterministischen und stochastischen Baselines auf einer breiten Palette von Bild- und Video-Verständnis-Benchmarks sowie in Domain-Generalization-Szenarien.

4. Ergebnisse

Die Evaluation erfolgte auf der Basis von InternVL3.5-1B (konvertiert in ein MoE-Modell mit 8 Experten, 2 aktiviert) und CLIP-MoE.

Multimodale Benchmarks: MoE-GRPO übertrifft konsistent Standard-Top-K-Routing (Det-FT) und stochastische Varianten (Stoch-FT-Multi, Stoch-FT-Noise) auf 7 von 9 Benchmarks (z. B. MMBench, MMStar, VideoMME). Die durchschnittliche Genauigkeitssteigerung liegt bei ca. 2–3 % gegenüber den besten Baselines.
Generalisierung:
- Cross-Dataset: Auf 10 Ziel-Datasets (nach Training auf ImageNet) zeigt MoE-GRPO eine durchschnittliche Genauigkeitssteigerung von 3,1 % gegenüber Det-FT und verhindert den Leistungsabfall, der bei Det-FT durch Überanpassung auftritt.
- Domain Generalization: Bei Out-of-Domain-Tests (z. B. ImageNet-S, ImageNet-A) bleibt MoE-GRPO stabil und übertrifft sowohl das Basis-Modell als auch Det-FT signifikant.
Ablationsstudien:
- Sowohl Token-GRPO als auch Gate-GRPO sind notwendig; das Entfernen von Gate-GRPO führt zu einem starken Leistungsabfall.
- Die modality-aware guidance verbessert die Konvergenzgeschwindigkeit und reduziert die Varianz der Belohnungen im Vergleich zu modality-agnostischen Ansätzen (Rauschen oder Multinomial Sampling).
Experten-Nutzung: Analysen zeigen, dass MoE-GRPO eine deutlich vielfältigere Nutzung der Experten fördert (höhere Entropie der Routing-Verteilung) und eine stärkere Aufgaben-spezifische Spezialisierung (Task-level specialization) erreicht, ohne die Balance auf Token-Ebene zu verlieren.

5. Bedeutung und Fazit

MoE-GRPO stellt einen Paradigmenwechsel in der Optimierung von MoE-Architekturen dar. Anstatt sich auf deterministische oder heuristisch gestörte Routing-Mechanismen zu verlassen, nutzt das Framework RL, um eine adaptive, belohnungsgesteuerte Routing-Policy zu erlernen.

Die Bedeutung liegt in:

Effizienz: Bessere Nutzung der Modellkapazität ohne Erhöhung der Inferenzkosten (da die Anzahl der aktivierten Parameter gleich bleibt).
Robustheit: Deutlich verbesserte Generalisierungsfähigkeit und Vermeidung von Experten-Überanpassung.
Skalierbarkeit: Der Ansatz ermöglicht es, VLMs effizienter zu skalieren, indem er sicherstellt, dass die richtige Experten-Kombination für jede Aufgabe und Modalität gelernt wird.

Zusammenfassend beweist das Paper, dass die explizite Optimierung der Experten-Routing-Policy durch Reinforcement Learning zu überlegenen Ergebnissen in multimodalen Aufgaben führt und gleichzeitig die Stabilität und Generalisierung von MoE-Modellen signifikant verbessert.