Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der verwirrte Reisende

Stell dir vor, du möchtest einem sehr klugen, aber etwas chaotischen Roboter beibringen, komplexe Rätsel zu lösen (wie Matheaufgaben mit Bildern). Der Roboter lernt durch Versuch und Irrtum (das nennt man „Reinforcement Learning").

Das Problem dabei ist:

Zu viel Zufall: Wenn der Roboter einfach nur wild herumprobieren darf, verliert er schnell den Fokus. Er wird wie ein Betrunkener, der im Kreis läuft. Er probiert alles aus, aber nichts führt zum Ziel. Das nennt man „Entropie-Collapse" – die Kreativität erstickt sich selbst, weil der Roboter zu unsicher wird oder zu fest in einer falschen Routine steckt.
Zu starre Anleitung: Wenn man ihm stattdessen einen strengen Lehrer (Experten) gibt, der ihm genau sagt, was zu tun ist, lernt er zwar schnell, aber er verliert seine Fähigkeit, neue, bessere Wege zu finden. Er kopiert nur den Lehrer, statt selbst zu denken. Wenn der Lehrer einen Fehler macht oder eine Aufgabe anders gelöst werden könnte, bleibt der Roboter stecken.

Die Lösung: CalibRL – Der erfahrene Navigator

Die Forscher haben eine neue Methode namens CalibRL entwickelt. Stell dir das wie eine Reise vor, bei der der Roboter der Fahrer ist und ein erfahrener Navigator (der Experte) auf dem Beifahrersitz sitzt.

Hier ist, wie CalibRL funktioniert, mit zwei genialen Tricks:

1. Der „Seltene-Fund"-Trick (Die Schatzkarte)

Normalerweise ignoriert ein Roboter Lösungen, die selten sind, weil er denkt: „Das kommt ja kaum vor, also ist es wahrscheinlich falsch."
CalibRL macht das Gegenteil. Es sagt: „Achtung! Diese Lösung ist selten, aber wenn sie richtig ist, ist sie ein echter Schatz!"

Die Analogie: Stell dir vor, du suchst nach dem besten Weg durch einen Dschungel. Die meisten gehen den breiten, bekannten Pfad (der oft falsch ist). CalibRL sagt dem Roboter: „Wenn du einen kleinen, kaum betretenen Pfad findest und er führt ans Ziel, dann belohne dich dafür extra stark!"
Das verhindert, dass der Roboter nur den gleichen alten Weg geht. Es zwingt ihn, auch die seltenen, aber richtigen Wege zu erkunden.

2. Der „Leaky"-Kompass (Der flexible Lehrer)

Früher haben Roboter versucht, den Experten 1:1 zu kopieren. Wenn der Experte sagte „Geh links", ging der Roboter links – egal ob es gerade regnete oder ein Loch im Weg war.
CalibRL nutzt den Experten als Kompass, nicht als Skript.

Die Analogie: Der Experte sagt: „Geh in diese Richtung." Aber der Roboter darf den Weg leicht anpassen. Wenn der Roboter denkt: „Hey, ich habe hier einen besseren Weg gefunden, der dem Experten ähnelt, aber nicht genau derselbe ist", dann darf er das tun.
Wenn der Roboter aber einen völlig falschen Weg geht (z. B. ins Wasser), wird er sofort korrigiert.
Der Trick hier ist eine spezielle mathematische Funktion (LeakyReLU), die wie ein dämpfender Stoßdämpfer wirkt. Sie verhindert, dass der Roboter zu selbstsicher wird (und Fehler macht), erlaubt ihm aber trotzdem, seine eigene Meinung zu haben, solange sie in die richtige Richtung zeigt.

Warum ist das so toll?

In Tests haben die Forscher gezeigt, dass dieser Ansatz viel besser funktioniert als die alten Methoden:

Kein Stillstand: Der Roboter lernt schneller, weil er nicht in einer Sackgasse feststeckt.
Bessere Generalisierung: Er kann das Gelernte auch auf völlig neue Aufgaben anwenden (wie ein Schüler, der nicht nur auswendig lernt, sondern das Prinzip versteht).
Stabilität: Er wird nicht verrückt (zu viel Zufall) und nicht stur (zu viel Kopieren). Er findet die perfekte Balance.

Zusammenfassung in einem Satz

CalibRL ist wie ein Coach, der einem Sportler sagt: „Ich gebe dir eine Grundstrategie (den Experten), aber ich ermutige dich, auch mal riskante, seltene Züge zu probieren. Wenn du einen seltenen Zug machst und er funktioniert, feiere ich dich besonders laut. Wenn du aber einen dummen Fehler machst, korrigiere ich dich sanft, aber bestimmt."

Dadurch wird der Roboter nicht nur ein besserer Kopierer, sondern ein echter Denker, der komplexe Probleme (wie Mathe und Bilder) viel besser löst als bisher.

Each language version is independently generated for its own context, not a direct translation.

Titel: CalibRL: Kontrollierte Exploration in Hybrid-Policy RLVR für Multi-Modales Reasoning

Veröffentlicht bei: ICLR 2026

1. Problemstellung

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als primäres Paradigma zur Verbesserung der Reasoning-Fähigkeiten von Multi-Modalen Large Language Models (MLLMs) etabliert. Trotz des Erfolgs bestehen jedoch fundamentale Herausforderungen:

Entropie-Kollaps: Während des RL-Trainings führt der enorme Zustandsraum von MLLMs in Kombination mit spärlichen Belohnungen oft zu einem Zusammenbruch der Policy-Entropie. Das Modell konvergiert zu früh auf suboptimale Verhaltensmuster oder wird übermäßig deterministisch.
Ineffiziente Exploration: Herkömmliche Methoden nutzen oft ungesteuerte zufällige Stichproben (hohe Entropie), was in großen Suchräumen ineffizient ist.
Limitationen bestehender Hybrid-Ansätze:
- SFT-then-RL: Die initiale Supervised Fine-Tuning (SFT) Phase verankert die Policy zu stark in der Demonstrationsverteilung, was die spätere Exploration einschränkt.
- Hybrid-Policy-Frameworks: Methoden, die SFT-Supervision direkt in das RL-Training integrieren, leiden unter einer Verteilungsfehlanpassung (Distributional Mismatch) zwischen der aktuellen Policy und den Expertentrajektorien. Dies führt zu hoher Varianz, Instabilität und beschleunigtem Entropieverlust, da die Expertendaten oft als starre Imitationsziele statt als Referenz behandelt werden.

2. Methodik: CalibRL

Die Autoren schlagen CalibRL vor, ein Hybrid-Policy RLVR-Framework, das Expertendaten nicht als absolute Imitationsziele, sondern als kalibrierende Baseline für die Verteilung nutzt. Das Ziel ist eine kontrollierte Exploration, die die Policy-Entropie erhält, während sie durch Expertenwissen gelenkt wird.

Das Framework basiert auf zwei komplementären Mechanismen:

A. Verteilungs-bewusste Advantage-Gewichtung (Distribution-Aware Advantage Weighting)

Prinzip: Die Updates werden basierend auf der „Seltenheit" (Rareness) einer Antwort innerhalb einer Gruppe skaliert.
Umsetzung: Der absolute Wert des gruppenbasierten Advantages ( $|\hat{A}_i|$ $∣ \hat{A}_{i} ∣$ ) dient als Gewichtungsfaktor.
- Seltene, aber korrekte Antworten (die oft neue Reasoning-Pfade darstellen) werden verstärkt, um die Verteilung zu erweitern.
- Seltene, aber falsche Antworten werden stärker unterdrückt, um irreführende Konvergenz zu verhindern.
Ziel: Dies erzwingt eine Kalibrierung der Verteilung und erhält informative, aber unterrepräsentierte Verhaltensweisen als Explorations-Signale.

B. Asymmetrische Aktivierungsfunktion (LeakyReLU-basiert)

Prinzip: Expertendaten dienen als Referenzpunkt, um übermäßiges Selbstvertrauen (Overconfidence) zu moderieren, ohne die Korrekturrichtung zu verlieren.
Umsetzung: Es wird ein Log-Wahrscheinlichkeits-Abstand ( $\Delta \ell_i$ $Δ ℓ_{i}$ ) zwischen der Policy-Antwort und der Expertenantwort berechnet. Dieser wird mit einem Korrektursignal ( $s_i$ $s_{i}$ , +1 für korrekt, -1 für falsch) multipliziert und durch eine LeakyReLU-Funktion mit einem Schwellenwert $\alpha$ $α$ aktiviert.
- Formel: $L_{exploration} = |\hat{A}_i| \cdot \text{LeakyReLU}(-s_i \cdot \Delta \ell_i, \alpha)$
Wirkung:
- Unterbewertete korrekte Antworten werden selektiv verstärkt (Erhöhung der Entropie).
- Überbewertete falsche Antworten werden stärker bestraft.
- Der Parameter $\alpha$ steuert das Ausmaß der weiteren Verstärkung oder Unterdrückung, sobald die Wahrscheinlichkeit die Expert-Baseline überschreitet.

Die finale Trainingsziel-Funktion kombiniert den standardmäßigen GRPO-Verlust mit diesem kontrollierten Explorations-Term, gewichtet durch einen Hyperparameter $\lambda$ .

3. Wichtige Beiträge

Neue Perspektive auf Expertendaten: Statt Expertendaten als starre Imitationsziele zu behandeln, werden sie als relative Baseline für die Kalibrierung der On-Policy-Verhalten interpretiert. Dies erhält die Entropie und ermöglicht gerichtete Exploration.
Zwei Mechanismen für kontrollierte Exploration:
- Advantage-Weighting zur Betonung seltener, informativer Antworten.
- Asymmetrische LeakyReLU-Aktivierung zur Moderation von Overconfidence unter Beibehaltung der Korrekturrichtung.
Umfassende Validierung: Die Methode wurde an acht Benchmarks (sowohl In-Domain als auch Out-of-Domain) getestet und zeigt konsistente Verbesserungen gegenüber dem GRPO-Baseline und anderen State-of-the-Art Hybrid-Policy-Methoden.

4. Ergebnisse

Die Experimente wurden auf verschiedenen Multi-Modalen Modellen (Qwen2.5-VL-7B, 3B, InternVL3-8B) durchgeführt.

In-Domain (Geometrie/Mathematik): CalibRL erzielte eine durchschnittliche Leistungssteigerung von 5,45 Prozentpunkten gegenüber dem GRPO-Baseline. Im Vergleich dazu zeigten Methoden wie LUFFY und RL-PLUS Leistungsabfälle.
Out-of-Domain (Allgemeines Reasoning): Auf Benchmarks wie MathVerse, MathVision und MMMU wurde eine konsistente Verbesserung von 2,61 Prozentpunkten über GRPO erreicht.
Robustheit bei schwierigen Fällen: Auf dem anspruchsvollen GeoEval-Benchmark (mit Fällen, bei denen selbst GPT-4o scheiterte) erreichte CalibRL 33,44 % Genauigkeit, während SFT+GRPO nur 6 % erreichte und andere Hybrid-Methoden unter dem GRPO-Baseline blieben.
Skalierbarkeit: Die Verbesserungen waren auch bei kleineren Modellen (3B) und größeren Architekturen (InternVL3-8B) konsistent, während konkurrierende Methoden dort oft instabil wurden.
Entropie-Verhalten: Im Gegensatz zu anderen Methoden, die zu früh kollabieren oder zu stark schwanken, zeigt CalibRL eine stabile, langanhaltende Entropie, die effektives Lernen ermöglicht.

5. Bedeutung und Fazit

CalibRL adressiert das fundamentale Spannungsfeld zwischen Exploration und Supervision beim Training von Reasoning-Modellen. Indem es Expertendaten als dynamische Referenz statt als starre Vorgabe nutzt, gelingt es, die Entropie-Kollapse-Problematik zu lösen, die bei aktuellen Hybrid-Ansätzen häufig auftritt.

Die Arbeit zeigt, dass kontrollierte Exploration ein entscheidender Baustein für zukünftige Post-Training-Strategien ist. Sie ermöglicht es MLLMs, über die Grenzen ihrer Trainingsdaten hinauszugehen und neue, hochwertige Reasoning-Pfade zu entdecken, ohne dabei die Stabilität des Trainings zu opfern. Dies ist ein wichtiger Schritt hin zu robusteren und generalisierbaren Multi-Modalen Reasoning-Systemen.

Der Code ist unter https://github.com/zhh6425/CalibRL verfügbar.