The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

Das große Dilemma: Der „Einzelkämpfer" vs. der „Vielseitige"

Stell dir vor, du trainierst einen sehr klugen Roboter (eine KI), damit er Matheaufgaben löst oder SQL-Datenbanken abfragt. Das Ziel ist, dass er die richtige Antwort findet.

Das Problem, das die Forscher entdeckt haben, ist ein seltsames Paradoxon:
Wenn man den Roboter mit der aktuellen Standard-Methode trainiert, wird er einmal versuchen, die Aufgabe zu lösen, und dabei sehr gut werden. Er findet die eine „perfekte" Antwort. Aber wenn man ihm erlaubt, zehnmal zu versuchen, die Aufgabe zu lösen (um sicherzugehen, dass er irgendeine richtige Antwort findet), wird er plötzlich schlechter als vorher! Er hat seine Kreativität verloren. Er ist wie ein Schüler, der nur noch eine einzige Formel auswendig gelernt hat und keine anderen Wege mehr sieht.

Zusätzlich vergisst er oft Dinge, die er vorher schon konnte (das nennt man „katastrophales Vergessen").

Der falsche Kompass: Der „Reverse-KL"-Kompass

Warum passiert das? Die Forscher sagen: Es liegt an dem Kompass, den die KI beim Lernen benutzt. Dieser Kompass heißt im Fachjargon „Reverse-KL-Divergenz".

Die Analogie:
Stell dir vor, die KI ist ein Wanderer in einem riesigen Wald voller verschiedener Pfade (Lösungswege).

Der alte Kompass (Reverse-KL) sagt dem Wanderer: „Geh nur den einen Weg, der am häufigsten von anderen genutzt wird! Ignoriere alle anderen Pfade!"
Das Ergebnis: Der Wanderer läuft nur noch auf diesem einen breiten Pfad. Er wird sehr schnell auf diesem Pfad, aber wenn dieser Pfad blockiert ist oder er eine neue Gegend betritt, ist er verloren. Er hat den Wald vergessen.

Die neue Idee: Der „Forward-KL"-Kompass

Die Forscher schlagen vor, den Kompass auszutauschen. Sie nutzen eine andere Art von Messung, die sie „Forward-KL" oder „JS-Divergenz" nennen.

Die neue Analogie:
Stell dir vor, die KI ist wieder ein Wanderer. Aber diesmal sagt der neue Kompass: „Achte darauf, dass du alle Pfade im Wald kennst! Wenn du einen neuen Weg findest, vergiss nicht die alten Pfade, die du schon kanntest!"

Dieser neue Kompass zwingt die KI, wie ein Proben-Übender zu handeln. Er erinnert die KI ständig daran: „Hey, du hast diese Lösung schon einmal gekonnt. Behalte sie im Gedächtnis, auch wenn du gerade eine neue, bessere Lösung suchst."

Die Lösung: DPH-RL (Der „Diversity-Preserving"-Coach)

Die Forscher haben eine neue Trainingsmethode namens DPH-RL entwickelt. Hier ist, wie sie funktioniert, in einfachen Schritten:

Zwei Gruppen von Aufgaben: Sie teilen die Trainingsaufgaben in zwei Haufen auf:
- Haufen A (Die leichten Aufgaben): Hier kennt die KI die Antwort schon gut. Hier sagt der Coach: „Mach genau das, was du schon kannst. Vergiss nichts!" (Hier wird der neue Kompass benutzt, um das Wissen zu festigen).
- Haufen B (Die schweren Aufgaben): Hier weiß die KI die Antwort noch nicht. Hier sagt der Coach: „Probier alles aus! Sei kreativ! Finde neue Wege!" (Hier wird der Kompass abgeschaltet, damit die KI frei探索ren kann).
Der „Rehearsal"-Effekt (Das Proben): Durch den neuen Kompass auf den leichten Aufgaben muss die KI ständig ihre alten Fähigkeiten „proben". Das verhindert, dass sie vergisst, wie man Dinge macht, und sorgt dafür, dass sie viele verschiedene Lösungswege behält.

Das Ergebnis: Warum ist das toll?

Die Tests haben gezeigt, dass dieser neue Ansatz Wunder wirkt:

Bessere Vielfalt: Die KI kann jetzt nicht nur eine, sondern viele verschiedene richtige Antworten finden (Pass@k steigt).
Kein Vergessen: Sie vergisst nicht, was sie vorher konnte.
Bessere Generalisierung: Wenn die KI auf völlig neue, unbekannte Aufgaben trifft (z. B. Matheaufgaben, wenn sie nur SQL gelernt hat), schafft sie es viel besser als die alten Modelle. Sie ist flexibler.
Effizient: Es braucht keinen zusätzlichen, riesigen „Lehrer-Roboter" im Hintergrund, was die Berechnung schneller und günstiger macht.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass der Standard-Weg, KI zu trainieren, sie zu einsamen Spezialisten macht, die alles andere vergessen. Mit ihrer neuen Methode (DPH-RL) trainieren sie die KI stattdessen wie einen vielseitigen Allrounder, der seine alten Tricks behält, während er neue lernt – und das macht sie schlauer und robuster.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Paradoxon der Diversitätskollaps

Das Paper adressiert ein zentrales Paradoxon beim Feinabstimmen von Large Language Models (LLMs) mittels Reinforcement Learning mit verifizierbaren Belohnungen (RLVR):

Das Phänomen: Obwohl RLVR die Genauigkeit bei einem einzigen Versuch (Pass@1) oft verbessert, führt dies häufig zu einer Verschlechterung der Leistung bei mehreren Versuchen (Pass@k). Zudem tritt oft ein „katastrophales Vergessen" (catastrophic forgetting) auf, bei dem das Modell zuvor gelernte Fähigkeiten verliert.
Die Ursache: Die aktuelle Community nutzt fast ausschließlich die reverse-KL-Divergenz (Reverse-KL) als Regularisierungsterm, um die Policy von einer Referenz-Policy fernzuhalten.
- Die Reverse-KL ist „mode-seeking": Sie drängt die Policy dazu, sich auf eine einzige hochwahrscheinliche Lösung zu konzentrieren.
- Dies führt zu einer Verengung der Ausgabeverteilung, was die Vielfalt der Lösungen (Diversity) zerstört und die Generalisierungsfähigkeit auf Out-of-Domain-Aufgaben (OOD) beeinträchtigt.
Die Lücke: Bisherige Ansätze zur Bekämpfung dieses Problems konzentrierten sich auf Entropiekontrolle, Hyperparameter-Tuning oder zusätzliche Daten. Die Wahl der Divergenzmetrik selbst wurde als potenzieller Hebel weitgehend ignoriert.

2. Methodik: DPH-RL (Diversity-Preserving Hybrid RL)

Die Autoren schlagen einen Paradigmenwechsel vor: Die Divergenz sollte nicht nur als Einschränkung, sondern als aktives Mechanismus zur Bewahrung von Wissen dienen.

Kernkonzept

Statt der Reverse-KL wird eine mass-covering f-Divergenz (wie Forward-KL oder Jensen-Shannon-Divergenz) verwendet.

Forward-KL: Bestraft die Policy dafür, dass sie Lösungen der Referenz-Policy ignoriert, die hohe Wahrscheinlichkeit haben. Dies zwingt das Modell, einen breiten Lösungsraum abzudecken („Mass Covering").
Analogie: Dies wirkt wie ein „Rehearsal-Mechanismus" (Wiederholungsmechanismus), ähnlich dem menschlichen Lernen, bei dem das Modell kontinuierlich auf sein ursprüngliches Wissen zurückgreift, um Vergessen zu verhindern.

Architektur und Trainingsprozess

Das Framework DPH-RL teilt den Trainingsdatensatz $D$ in zwei Teilmengen auf, basierend auf der Leistung des Referenzmodells (z. B. Pass@8):

$D_{pef}$ (Near-Perfect): Daten, bei denen das Referenzmodell bereits hohe Genauigkeit zeigt.
- Ziel: Fähigkeiten erhalten, Diversität bewahren.
- Verlustfunktion: Hier wird die f-Divergenz (Forward-KL oder JS) angewendet, um das Modell an die ursprüngliche, diverse Verteilung zu „ankern".
$D_{exp}$ (Exploration): Daten, bei denen das Referenzmodell Schwierigkeiten hat.
- Ziel: Aggressive Exploration neuer Lösungen.
- Verlustfunktion: Keine Divergenz-Strafe; reines Reward-Maximierung (PPO-Clip), um neue Lösungspfade zu finden.

Implementierungsvorteile (Generator-basiert)

Ein entscheidender technischer Vorteil ist die Berechnung der Divergenz:

Statt eines teuren Online-Referenzmodells (das bei jedem Schritt inferieren müsste) nutzt DPH-RL eine Pre-Sampling-Strategie.
Es werden vor dem Training feste Samples aus der Referenz-Policy generiert.
Die Divergenz wird dann als statischer Verlust auf diesen Samples berechnet (Generator-Form).
Ergebnis: Keine Notwendigkeit für ein zusätzliches Referenzmodell während des Online-Trainings, was die Recheneffizienz stark erhöht.

3. Wichtige Beiträge

Systematische Analyse: Der Nachweis, dass die Reverse-KL-Divergenz primär für den Kollaps der Pass@k-Leistung und das katastrophale Vergessen verantwortlich ist.
Neues Framework (DPH-RL): Die Einführung eines hybriden Ansatzes, der mass-covering f-Divergenzen (Forward-KL, JS) nutzt, um Diversität zu erhalten, ohne externe Modelle zu benötigen.
Theoretische Fundierung: Ein Beweis für eine verbesserte monotone Verbesserungsgarantie (Enhanced Monotonic Improvement Guarantee), die zeigt, dass die Methode die Konvergenz durch die Nutzung von Expertenverhalten (in $D_{pef}$ ) beschleunigt, während sie in $D_{exp}$ unbeschränkte Exploration erlaubt.

4. Ergebnisse

Die Methode wurde an Modellen der Serien Llama-3.1 (7B/8B) und Qwen2.5 (7B/32B) auf Aufgaben in Mathematik und SQL (Text-to-SQL) getestet.

In-Domain Leistung (Pass@1 & Pass@k):
- DPH-RL übertrifft die Baselines (GRPO, DAPO, Reverse-KL) sowohl bei der Greedy-Accuracy (Pass@1) als auch signifikant bei der Mehrfachversuchs-Leistung (Pass@k).
- Beispiel (SQL Bird-Dataset): DPH-JS erreichte Pass@8 Werte, die um 4,3 % höher waren als bei GRPO.
Out-of-Domain (OOD) Generalisierung:
- Modelle, die mit Reverse-KL oder ohne KL trainiert wurden, zeigten einen drastischen Leistungsabfall auf OOD-Datensätzen (z. B. SQL-Modelle auf Math-Aufgaben).
- DPH-RL bewahrte die Leistung auf OOD-Aufgaben deutlich besser und verhinderte das katastrophale Vergessen.
Diversitätserhaltung:
- Experimente zeigten, dass Reverse-KL-Modelle oft nur noch einen einzigen Lösungsstil generieren (94% Ein-Stil-Ausgaben), während Forward-KL/JS-Modelle eine breite Palette von Stilen beibehalten (ähnlich dem Basismodell).
Effizienz:
- Durch die Nutzung der Generator-Form ist DPH-RL rechnerisch effizienter als Ansätze, die ein Online-Referenzmodell benötigen, und erreicht dennoch bessere Ergebnisse.

5. Bedeutung und Fazit

Das Paper hebt eine bisher vernachlässigte Achse in der RLVR-Forschung hervor: Die Wahl der Divergenzmetrik ist entscheidend.

Wissenschaftlicher Impact: Es widerlegt die Annahme, dass Reverse-KL der Standard für RLHF/RLVR sein muss, und zeigt, dass Forward-KL und JS-Divergenzen in diesem Kontext überlegene Werkzeuge zur Bewahrung von Wissen und Vielfalt sind.
Praktische Relevanz: DPH-RL bietet eine robuste Lösung für das Dilemma zwischen „Greedy-Performance" (hohe Pass@1) und „Diversität" (hohe Pass@k). Es ermöglicht das Training von Modellen, die nicht nur einzelne korrekte Antworten finden, sondern eine Vielzahl von Lösungsstrategien beherrschen und dabei ihr vorheriges Wissen nicht verlieren.
Zukunftsausblick: Die Autoren empfehlen die Variante DPH-JS (Generator) mit einem Schwellenwert von „8 von 8" korrekten Versuchen als optimale Konfiguration für zukünftige Forschung und Anwendungen.

Zusammenfassend demonstriert das Paper, dass die richtige Auswahl der Divergenzmaße ein mächtiges Instrument ist, um generalisierbare und diverse Reasoning-Modelle zu bauen, und dass der Verzicht auf die Standard-Reverse-KL ein notwendiger Schritt für die nächste Generation von RL-verstärkten LLMs ist.