Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du unterrichtest einen sehr klugen, aber manchmal etwas chaotischen Schüler (das ist das große Sprachmodell, LLM), wie man komplexe Matheaufgaben löst. Dein Ziel ist es, ihn durch Belohnung (Reinforcement Learning) zu einem Meister der Logik zu machen.

Das Problem, das die Autoren dieses Papiers beschreiben, ist wie ein Schaukelstuhl, der entweder steif wird oder wild durch die Gegend fliegt.

Hier ist die einfache Erklärung der Forschung, die auf der ICLR 2026 veröffentlicht wurde:

1. Das Problem: Der verrückte Lehrer (Die alte Methode)

Bisher haben Lehrer (Algorithmen wie GRPO oder DAPO) den Schüler so unterrichtet:
Sie haben eine Gruppe von 5 Antworten des Schülers gesammelt. Dann haben sie die Durchschnittsnote dieser 5 Antworten berechnet.

Hatte der Schüler eine Antwort, die besser war als der Durchschnitt, bekam er eine Belohnung.
Hatte er eine schlechtere Antwort als der Durchschnitt, bekam er eine Strafe.

Das Problem dabei:
Stell dir vor, in einer Gruppe von 5 Schülern sind 4 sehr schlecht und 1 ist ein Genie.

Der Durchschnitt ist niedrig.
Der "Genie-Schüler" bekommt eine riesige Belohnung (super!).
Aber die 4 "Durchschnittsschüler" (die eigentlich gar nicht so schlecht sind) werden jetzt als "schlechter als der Durchschnitt" abgestraft, weil der Genie den Durchschnitt so hochgezogen hat.

Das führt zu zwei Katastrophen:

Entropie-Kollaps (Der Starre Schüler): Der Schüler lernt, nur noch die eine "perfekte" Antwort zu geben, die er einmal zufällig gefunden hat. Er traut sich nichts Neues mehr aus. Er wird starr und kann keine neuen Probleme mehr lösen.
Entropie-Explosion (Der Chaotische Schüler): Umgekehrt passiert es, wenn der Schüler zu viele zufällige, dumme Antworten gibt. Der Lehrer bestraft alles, was nicht perfekt ist. Der Schüler wird so verunsichert, dass er anfängt, völlig zufällige Wörter zu spucken, nur um nicht bestraft zu werden. Er lernt nichts mehr, weil das Signal im Rauschen untergeht.

2. Die Lösung: Der neue Lehrer (QAE - Quantile Advantage Estimation)

Die Autoren sagen: "Halt! Der Durchschnitt ist ein schlechter Maßstab, wenn es Ausreißer gibt."

Statt den Durchschnitt zu nehmen, schlagen sie vor, einen Schwellenwert (Quantil) zu nutzen. Stell dir das wie eine Klasseinteilung vor:

Der Lehrer fragt sich: "Wie schwer ist diese Aufgabe eigentlich?"
Szenario A: Die Aufgabe ist schwer (Der Schüler hat oft Fehler).
- Der Lehrer sagt: "Okay, wenn du hier irgendwie eine richtige Antwort findest, ist das ein großer Erfolg!"
- Er belohnt nur die seltenen, richtigen Antworten. Die vielen Fehler werden ignoriert (nicht bestraft).
- Metapher: Wenn du in einem dunklen Wald läufst und endlich ein Licht siehst, ist das toll. Dass du vorher 100 Mal gegen Bäume gelaufen bist, ist okay, solange du das Licht findest.
Szenario B: Die Aufgabe ist leicht (Der Schüler hat oft Recht).
- Der Lehrer sagt: "Du hast die Aufgabe schon verstanden. Wenn du jetzt noch Fehler machst, ist das inakzeptabel."
- Er bestraft nur die verbleibenden Fehler. Die richtigen Antworten werden ignoriert (nicht belohnt).
- Metapher: Wenn du schon meisterhaft Tennis spielst, ist es langweilig, wenn du den Ball ins Netz schlägst. Wir müssen nur noch die kleinen Fehler korrigieren.

3. Der Trick: Der "80/20"-Effekt

Das Geniale an dieser neuen Methode (QAE) ist, dass sie 80% der Antworten einfach ignoriert.

Bei schweren Aufgaben werden nur die wenigen Erfolge belohnt.
Bei leichten Aufgaben werden nur die wenigen Fehler bestraft.

Das ist wie ein Filter. Anstatt den ganzen Schüler zu beschimpfen oder zu loben, konzentriert sich der Lehrer nur auf die wirklich wichtigen Momente. Das macht das Training stabiler, schneller und verhindert, dass der Schüler verrückt wird (Entropie-Explosion) oder starr wird (Entropie-Kollaps).

4. Das Ergebnis

Durch diesen einfachen Wechsel (statt "Durchschnitt" nun "Schwellenwert") passiert Folgendes:

Der Schüler bleibt neugierig (er forscht weiter), aber nicht chaotisch.
Er wird nicht zu starr, sondern lernt kontinuierlich dazu.
Auf echten Mathe-Tests (wie AIME oder AMC) erreicht er viel höhere Punktzahlen als mit den alten Methoden.

Zusammenfassend:
Die alten Methoden waren wie ein Lehrer, der auf den Durchschnitt schaut und dabei die Ausreißer (die Genies oder die Chaoten) falsch behandelt. Die neue Methode (QAE) ist wie ein smarter Coach, der genau weiß, wann er nur die Erfolge feiert und wann er nur die Fehler korrigiert. Das hält den Schüler in der "Goldilocks-Zone" – nicht zu starr, nicht zu chaotisch, sondern genau richtig, um zu lernen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Entropie-Dilemma im RLVR

Das Papier adressiert ein fundamentales Problem beim Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für Large Language Models (LLMs), insbesondere bei der Verbesserung von Schlussfolgerungsfähigkeiten (Reasoning).

Der Kontext: RLVR-Methoden wie GRPO (Group Relative Policy Optimization) und DAPO (Dynamic Sampling Policy Optimization) haben sich als effektiv erwiesen, um LLMs durch Belohnung für korrekte Antworten zu trainieren. Diese Methoden sind oft „wertfrei" (value-free), d.h. sie verwenden keine separate Wertnetzwerk, sondern basieren auf dem Durchschnitt der Belohnungen innerhalb einer Gruppe von Antworten.
Das Kernproblem: Das Training neigt zu einem instabilen Oszillieren zwischen zwei Extremen:
1. Entropie-Kollaps (Entropy Collapse): Die Policy wird zu früh deterministisch, die Exploration stoppt, und das Modell bleibt in suboptimalen Lösungsräumen stecken.
2. Entropie-Explosion (Entropy Explosion): Die Policy wird zu stochastisch. Dies führt zu ineffizienter Exploration, verrauschten Gradienten und einem Plateau der Leistung, obwohl die Entropie hoch bleibt.
Die Ursache: Die Autoren identifizieren die mittlere Belohnungs-Baseline (Mean-Baseline) als Hauptursache. Bei der Verwendung des Gruppenmittelwerts als Referenz werden negative Vorteilssamples (schlechte Antworten) unter Ausreißern (einzelne sehr gute Antworten in der Gruppe) unangemessen stark bestraft. Dies führt dazu, dass das Modell in frühen Phasen übermäßig explorativ wird (Explosion), um diese Bestrafung zu vermeiden, und später in ein Plateau gerät, da die Lernsignale nicht mehr effektiv genutzt werden können.
Versagens der bisherigen Lösungen: Bestehende Ansätze konzentrieren sich fast ausschließlich auf die Verhinderung des Kollaps (z. B. durch Token-Level-Clipping wie „Clip-Higher"). Diese Methoden verhindern zwar den Kollaps, können aber unbeabsichtigt die Entropie-Explosion auslösen oder verschlimmern, da sie das zugrundeliegende Problem der Baseline-Designs nicht lösen.

2. Methodik: Quantile Advantage Estimation (QAE)

Die Autoren schlagen Quantile Advantage Estimation (QAE) vor, eine minimalinvasive Modifikation, die die Mean-Baseline durch eine gruppenweise K-Quantil-Baseline ersetzt.

Grundprinzip: Anstatt den Durchschnitt der Belohnungen einer Gruppe von $G$ $G$ Antworten zu verwenden, wird eine Schwellenwert-Baseline basierend auf dem $K$ $K$ -Quantil eingeführt.
- Für eine Abfrage $q$ $q$ mit empirischer Erfolgsrate $p(q)$ $p (q)$ wird die Baseline $b_K(q)$ $b_{K} (q)$ wie folgt definiert:
  - Wenn $p(q) \le 1-K$ (schwere Abfragen): Die Baseline ist 0.
  - Wenn $p(q) > 1-K$ (einfache Abfragen): Die Baseline ist 1.
Der Zwei-Regime-Mechanismus:
1. Schwere Abfragen (Exploitation-Fokus): Hier ist die Baseline 0. Falsche Antworten ( $R=0$ ) erhalten einen Vorteil von 0 (kein Update), während seltene korrekte Antworten ( $R=1$ ) einen positiven Vorteil erhalten. Dies verstärkt erfolgreiche Pfade, ohne die Exploration unnötig zu bestrafen.
2. Einfache Abfragen (Exploration-Fokus): Hier ist die Baseline 1. Korrekte Antworten erhalten einen Vorteil von 0 (kein Update), während verbleibende Fehler ( $R=0$ ) einen negativen Vorteil erhalten. Dies zwingt das Modell, die verbleibenden Fehler auf bereits lösbaren Aufgaben zu korrigieren, statt zufällig zu explorieren.
Theoretische Sicherheit: Unter der Annahme von First-Order-Softmax-Updates beweisen die Autoren eine zweiseitige Entropiesicherheit:
- Im Bereich niedrigen Erfolgs ( $p \le 1-K$ ) minimiert die Quantil-Baseline die Entropiezunahme (verhindert Explosion).
- Im Bereich hohen Erfolgs ( $p > 1-K$ ) maximiert sie die Entropiezunahme (verhindert Kollaps).
- Dies bietet eine garantierte Obergrenze und Untergrenze für die Entropieänderung pro Schritt, was bei herkömmlichen Token-Level-Heuristiken nicht möglich ist.
Sparsität (80/20-Regel): Ein bemerkenswerter Effekt ist die natürliche Sparsität der Updates. Mit einem abgestimmten $K$ (z. B. 0,4) erhalten etwa 80 % der Antworten einen Vorteil von 0. Das Training konzentriert sich somit nur auf die informativsten Samples (seltene Erfolge bei schwierigen Aufgaben oder verbleibende Fehler bei einfachen Aufgaben).

3. Wichtige Beiträge

Identifikation der Baseline als primärer Hebel: Das Papier zeigt, dass die Instabilität im RLVR weniger ein Hyperparameter-Tuning-Problem auf Token-Ebene ist, sondern ein Designproblem der Baseline auf Antwort-Ebene.
QAE-Algorithmus: Einführung einer einfachen, aber effektiven Methode, die den Mittelwert durch ein Quantil ersetzt und damit einen deterministischen Schalter zwischen Exploitation und Exploration implementiert.
Theoretische Beweise: Herleitung von zweiseitigen Entropie-Sicherheitsgarantien, die zeigen, dass QAE sowohl Explosion als auch Kollaps theoretisch verhindern kann.
Sparses Credit Assignment: Die Demonstration, dass die meisten Updates unnötig sind und das Training durch Fokussierung auf eine kleine Teilmenge der Daten (ca. 20 %) stabiler und effizienter wird.

4. Ergebnisse

Die Autoren evaluieren QAE auf mathematischen Reasoning-Benchmarks (AIME'24, AIME'25, AMC'23) mit verschiedenen Modellen (Qwen3-8B, Qwen3-14B, Qwen3-30B) und Baselines (DAPO, Clip-Higher, GSPO).

Leistungssteigerung: QAE führt zu konsistenten Verbesserungen bei Pass@1 (der Genauigkeit der ersten Antwort) über alle Modelle hinweg.
- Beispiel Qwen3-8B-Base mit DAPO: Steigerung von 32,71 auf 34,90 (+6,7 %) auf AIME'25 und von 39,69 auf 48,23 (+21,5 %) auf AIME'24.
- Die Pass@16-Leistung bleibt dabei vergleichbar stabil, was auf eine höhere Sample-Effizienz hindeutet.
Stabilisierung der Entropie: Im Gegensatz zu DAPO, das nach ca. 100 Trainingsschritten eine Entropie-Explosion und ein Leistungsplateau zeigt, bleibt die Entropie bei QAE stabil und kontrolliert.
Kombinierbarkeit: QAE ist orthogonal zu bestehenden Techniken wie Token-Level-Clipping (Clip-Higher, Clip-Cov) und funktioniert auch mit GSPO (Group Sequence Policy Optimization).
Dynamik der Exploration: Während DAPO zu einer Homogenisierung der Token-Nutzung führt (Verlust an Vielfalt), erhält QAE eine produktive Ko-Entwicklung von explorativen „Aha-Moment"-Token und der Genauigkeit.

5. Bedeutung und Fazit

Das Papier stellt einen Paradigmenwechsel in der Stabilisierung von RLVR dar:

Vom Token-Level zum Baseline-Level: Statt komplexe Heuristiken auf Token-Ebene zu entwickeln, adressiert QAE das Problem an der Wurzel durch ein besseres Baseline-Design.
Skalierbarkeit: Da QAE die Entropie stabil hält und unnötige Updates filtert, ist es ein entscheidender Schritt für das Skalieren von RLVR auf größere Modelle und komplexere Aufgaben, ohne dass das Training instabil wird.
Einfachheit: Die Methode erfordert nur einen einzigen Hyperparameter ( $K$ ) und kann als „Drop-in"-Ersetzung für die Mean-Baseline in bestehenden Frameworks wie GRPO oder DAPO implementiert werden.

Zusammenfassend beweist QAE, dass eine intelligente Steuerung des Explorations-Exploitation-Trade-offs durch die Wahl der Baseline erreicht werden kann, was zu robusteren, effizienteren und leistungsfähigeren Reasoning-Modellen führt.

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

1. Das Problem: Der verrückte Lehrer (Die alte Methode)

2. Die Lösung: Der neue Lehrer (QAE - Quantile Advantage Estimation)

3. Der Trick: Der "80/20"-Effekt

4. Das Ergebnis

1. Problemstellung: Das Entropie-Dilemma im RLVR

2. Methodik: Quantile Advantage Estimation (QAE)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning