Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Einheitsbrei"-Effekt

Stell dir vor, du hast einen genialen Koch (das KI-Modell), der tausende verschiedene Gerichte kochen kann. Manchmal ist das Essen perfekt, manchmal etwas salzig, manchmal kreativ verrückt.

Nun willst du, dass dieser Koch nur perfekte Gerichte serviert. Du stellst also einen strengen Kritiker (den Verifizierer) auf, der sagt: "Wenn das Essen gut ist, bekommst du einen Stern. Wenn nicht, keine Sterne."

Das Problem bei den bisherigen Methoden (die sogenannten RL-Methoden) ist folgendes: Der Koch lernt schnell, dass er nur ein ganz bestimmtes Gericht kochen muss, um immer Sterne zu bekommen. Vielleicht ist es ein einfaches Spaghetti-gericht. Er hört auf, experimentelle Gerichte zu probieren, weil er Angst hat, den Stern zu verlieren.

Das Ergebnis: Der Koch wird sehr präzise (immer Spaghetti), aber er wird extrem langweilig und verliert seine Kreativität. In der KI-Wissenschaft nennen wir das "Mode Collapse" (Zusammenbruch der Vielfalt). Er hat vergessen, dass er auch andere gute Gerichte kochen konnte.

Die neue Idee: "Alles, was übrig bleibt, muss wahr sein"

Die Autoren dieses Papiers haben eine andere Herangehensweise gewählt. Sie zitieren Sherlock Holmes: "Wenn du das Unmögliche ausgeschlossen hast, muss das Übrige, wie unwahrscheinlich es auch sein mag, die Wahrheit sein."

Statt den Koch zu zwingen, nur das eine perfekte Gericht zu kochen, sagen sie:

Wir nehmen alle Gerichte, die der Koch kochen könnte.
Wir werfen alle schlechten Gerichte weg (die Verifizierer sagen "Nein").
Aber: Wir behalten die relativen Chancen der guten Gerichte bei. Wenn der Koch früher Spaghetti und Pizza gleichermaßen gut konnte, soll er das auch nach dem Training tun.

Das Ziel ist eine Zielverteilung: Eine Liste aller möglichen perfekten Antworten, die so aussieht wie die ursprüngliche Liste des Kochs, nur ohne die Fehler.

Der Trick: Der "Drehregler" für Vielfalt

Das Schwierige ist: Wie bringt man den Koch dazu, dieser Liste zu folgen, ohne wieder in den "Einheitsbrei"-Modus zu verfallen?

Hier kommt der $\alpha$ -DPG-Algorithmus ins Spiel. Stell dir das wie einen Drehregler vor, den du einstellen kannst:

Stellung "Präzision" (nahe 1, z. B. 0,99): Der Regler ist so eingestellt, dass der Koch extrem genau wird. Er ignoriert fast alles, was nicht 100%ig sicher ist. Das ist wie bei den alten Methoden: Sehr gut für einzelne, schwierige Aufgaben, aber wenig Vielfalt.
Stellung "Vielfalt" (nahe 0, z. B. 0,25): Der Regler ist so eingestellt, dass der Koch so viele verschiedene gute Lösungen wie möglich behält. Er deckt das ganze Spektrum ab.
Die Mitte: Du kannst den Regler irgendwo dazwischen einstellen, je nachdem, was du brauchst.

Die Autoren nennen ihre Methode DMVR (Distributional Matching with Verifiable Rewards). Sie sagen im Grunde: "Wir suchen nicht nach dem einen perfekten Weg, sondern wir filtern den gesamten Wald der Möglichkeiten, um nur die gesunden Bäume übrig zu lassen."

Was haben sie herausgefunden?

Sie haben das an einem sehr schwierigen Test getestet: Mathematische Beweise (in einer Sprache namens Lean). Hier ist es wichtig, viele verschiedene Wege zu einem Beweis zu finden, weil es oft nur einen seltenen Weg gibt, der funktioniert.

Die alten Methoden (RL): Waren sehr gut darin, einen Beweis zu finden (hohe Präzision), aber wenn man 256 Versuche machte, fanden sie oft immer denselben Beweis oder gar keinen neuen. Sie waren wie ein Mensch, der immer denselben Weg durch einen Labyrinth nimmt, auch wenn es andere gibt.
Die neue Methode ( $\alpha$ -DPG):
- Wenn man den Regler auf "Vielfalt" stellt, findet das Modell viel mehr verschiedene Lösungen. Es deckt den gesamten Labyrinth ab.
- Wenn man den Regler auf "Präzision" stellt, ist es genauso gut wie die alten Methoden.
- Das Beste: Sie haben eine Art "Pareto-Grenze" erreicht. Das bedeutet, sie haben das Maximum an beidem erreicht: Man kann nicht mehr Präzision haben, ohne Vielfalt zu verlieren, und umgekehrt. Sie haben die beste Balance gefunden.

Zusammenfassung in einem Satz

Statt die KI zu zwingen, nur eine Art von Perfektion zu lernen (was sie langweilig macht), filtert diese neue Methode einfach alle Fehler heraus und lässt die KI die ganze Bandbreite ihrer ursprünglichen, kreativen Fähigkeiten beibehalten – und das mit einem Drehregler, mit dem man genau steuern kann, wie vorsichtig oder wie kreativ sie sein soll.

Das Fazit: "Whatever Remains Must Be True" (Alles, was übrig bleibt, muss wahr sein) bedeutet hier: Wenn wir alle falschen Antworten wegwerfen, müssen wir nicht den Rest zerstören, sondern können die verbleibenden guten Antworten feiern und nutzen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Reinforcement Learning (RL), insbesondere Reinforcement Learning from Verifiable Rewards (RLVR) wie PPO oder GRPO, hat sich zum Standard für das Feinabstimmen von Large Language Models (LLMs) auf reasoning-Aufgaben entwickelt. Trotz des Erfolgs leiden Modelle, die mit diesen Methoden trainiert werden, jedoch unter einem signifikanten Verlust an Diversität (oft als „Mode Collapse" bezeichnet).

Die Autoren argumentieren, dass dieses Phänomen aus der impliziten Zielsetzung von RL-basierten Methoden resultiert: Sie optimieren die Reverse KL-Divergenz (KL(π||p)) zu einer Zielverteilung, die korrekte Antworten bevorzugt. Die Reverse KL ist eine „mode-seeking" (modensuchende) Divergenz. Sie bestraft es, Wahrscheinlichkeitsmasse in Regionen zu legen, die vom Zielmodell nicht abgedeckt werden, ignoriert aber weitgehend das Übersehen von Modi innerhalb der Zielverteilung. Das Ergebnis ist ein Modell, das zwar präzise (hohe Pass@1-Rate) ist, aber die Vielfalt der möglichen Lösungen einengt und damit die Abdeckung (Coverage, Pass@k) bei begrenztem Sampling-Budget reduziert.

2. Methodik: DMVR und 𝛼-DPG

Das Paper schlägt einen neuen Rahmen vor, der als Distributional Matching with Verifiable Rewards (DMVR) bezeichnet wird.

Explizite Zielverteilung: Anstatt eine implizite Verteilung zu optimieren, definieren die Autoren eine explizite Zielverteilung $p_x$ . Diese Verteilung filtert alle falschen Antworten heraus, behält aber die relativen Wahrscheinlichkeiten der korrekten Antworten aus dem Basis-Modell ( $\pi_{base}$ ) bei. Formal: $p_x(y) \propto \pi_{base}(y|x) \cdot v(y,x)$ , wobei $v$ ein Verifizierer ist.
Approximation durch Divergenzen: Um eine autoregressive Policy $\pi_\theta$ zu finden, die diese Zielverteilung approximiert, nutzen die Autoren die Familie der $f$ -Divergenzen.
Der 𝛼-DPG-Ansatz: Der Kernbeitrag ist die Einführung von $\alpha$ -DPG, basierend auf der $\alpha$ $α$ -Divergenz-Familie. Diese Familie interpoliert nahtlos zwischen zwei Extremen:
- $\alpha \to 0$ (Forward KL): Eine „mass-covering" Divergenz. Sie zwingt das Modell, alle Modi der Zielverteilung abzudecken, was die Diversität maximiert, aber möglicherweise auch unwahrscheinliche Regionen beinhaltet (geringere Präzision).
- $\alpha \to 1$ (Reverse KL): Eine „mode-seeking" Divergenz. Sie konzentriert die Masse auf die wahrscheinlichsten korrekten Modi (hohe Präzision), führt aber zu Diversitätsverlust.
- $\alpha \in (0, 1)$ : Durch das Einstellen des Parameters $\alpha$ können die Autoren den Trade-off zwischen Präzision (Wahrscheinlichkeit, eine korrekte Lösung im ersten Versuch zu finden) und Abdeckung (Wahrscheinlichkeit, bei vielen Versuchen mindestens eine korrekte Lösung zu finden) steuern.

Die Methode nutzt Distributional Policy Gradient (DPG) Algorithmen, um die Divergenz zwischen der aktuellen Policy und der gefilterten Zielverteilung zu minimieren.

3. Wichtige Beiträge

DMVR-Framework: Einführung eines allgemeinen Rahmens, der das Training von Modellen durch die Approximation einer explizit definierten, verifizier-basierten Zielverteilung beschreibt.
Diagnose von RLVR: Klärung, dass RLVR-Methoden implizit die Reverse KL zu einer gefilterten Verteilung optimieren, was den Diversitätsverlust erklärt.
$\alpha$ -DPG: Ein neuer Algorithmus, der Forward und Reverse KL durch $\alpha$ -Divergenzen vereint und einen kontrollierbaren Trade-off ermöglicht.
Pareto-Frontier: Demonstration, dass $\alpha$ -DPG Modelle erzeugt, die auf der Pareto-Frontier zwischen Präzision und Abdeckung liegen, und damit bestehende Methoden übertreffen oder ergänzen.

4. Ergebnisse

Die Evaluation erfolgte auf dem Lean-Theorembeweiser-Benchmark (formale Mathematik), wo Diversität entscheidend ist, da schwierigere Theoreme oft nur durch seltene Beweiswege lösbar sind.

Pareto-Optimalität: Die Modelle von $\alpha$ $α$ -DPG bilden eine klare Pareto-Frontier.
- Niedrige $\alpha$ -Werte (z. B. 0.25) erreichen die höchste Abdeckung (Pass@256) und übertreffen dabei alle anderen Methoden, während sie die Präzision (Pass@1) im Vergleich zum Basis-Modell (SFT) deutlich verbessern.
- Hohe $\alpha$ -Werte (z. B. 0.999) erreichen eine Präzision, die mit den besten RL-basierten Methoden (wie GRPO) vergleichbar ist, behalten aber oft eine höhere Abdeckung bei.
Vergleich mit Baselines:
- Reine RL-Methoden (GRPO, RLOO) erreichen hohe Präzision, kollabieren aber oft in der Diversität (geringe Pass@256).
- Methoden zur Erhaltung der Diversität (Pass@k Training, High-KL Regularisierung) verbessern die Abdeckung, erreichen aber nicht die gleiche Effizienz wie $\alpha$ -DPG.
- $\alpha$ -DPG mit $\alpha=0.25$ dominiert das Basis-Modell und andere Diversitäts-basierte Baselines in der Abdeckung.
Diversitätsanalyse: Es wurde gezeigt, dass eine höhere Diversität in Taktiken und Prämissen (gemessen durch Shannon-Entropie und Simpson-Index) stark mit einer besseren Pass@256-Leistung korreliert.
Perplexitäts-Analyse: Im Gegensatz zu der Annahme, dass RL neue Lösungen „erfindet", zeigt die Analyse, dass die generierten Sequenzen bereits unter dem Basis-Modell wahrscheinlich waren. Der Unterschied liegt in der Neuverteilung der Wahrscheinlichkeitsmasse, nicht in der Entdeckung völlig neuer Räume.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen theoretischen und praktischen Durchbruch für das Training von Reasoning-Modellen:

Paradigmenwechsel: Es zeigt, dass der Verlust an Diversität nicht in der Zielverteilung (dem Filtern falscher Antworten) liegt, sondern in der Wahl der Divergenzfunktion zur Approximation dieser Verteilung.
Kontrollierbarkeit: Durch den Parameter $\alpha$ können Forscher und Praktiker das Modell gezielt für spezifische Anwendungsfälle optimieren: Entweder für maximale Effizienz bei einzelnen Versuchen (hoher $\alpha$ ) oder für maximale Robustheit und Abdeckung bei begrenztem Rechenbudget (niedriger $\alpha$ ).
Formale Beweise: Die Ergebnisse unterstreichen die Bedeutung formaler Methoden (wie Lean), da sie eine exakte Verifizierung ermöglichen, die für die Definition der Zielverteilung und die Analyse von Diversität unerlässlich ist.

Zusammenfassend beweist das Paper, dass „Filtern" (das Entfernen falscher Antworten) der Schlüssel zum Reasoning ist, aber die Art und Weise, wie dieses Filtern mathematisch in das Training integriert wird (via $\alpha$ -Divergenz), darüber entscheidet, ob das Modell eine breite Palette von Lösungen behält oder in eine einzelne Lösung kollabiert.

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Das große Problem: Der "Einheitsbrei"-Effekt

Die neue Idee: "Alles, was übrig bleibt, muss wahr sein"

Der Trick: Der "Drehregler" für Vielfalt

Was haben sie herausgefunden?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: DMVR und 𝛼-DPG

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning