Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr klugen, aber manchmal etwas verwirrten Schüler (dem KI-Modell) beibringen, wie man komplexe Matheaufgaben löst.

Bisher hat man das so gemacht: Der Schüler macht 8 verschiedene Versuche (Rollouts). Ein Lehrer (der Algorithmus) schaut sich die Ergebnisse an und sagt: „Der eine Versuch war super, der andere war schlecht."

Das Problem bei der bisherigen Methode (die im Paper GRPO genannt wird) ist, wie der Lehrer die „Lernpunkte" verteilt. Das Paper nennt das REAL (Rewards as Labels), und es funktioniert wie ein cleverer neuer Lehrer, der das System komplett überdenkt.

Hier ist die einfache Erklärung mit ein paar bildhaften Vergleichen:

1. Das Problem: Der ungerechte Lehrer (GRPO)

Stell dir vor, der Lehrer gibt Punkte basierend auf dem Selbstvertrauen des Schülers, nicht nur auf die Richtigkeit der Antwort.

Das Problem bei den „Guten" Antworten (Positive Samples):
Wenn der Schüler eine richtige Antwort gibt, die er aber selbst schon sehr sicher war (hohe Wahrscheinlichkeit), bekommt er riesige Belohnungen. Aber wenn er eine richtige Antwort gibt, bei der er unsicher war (niedrige Wahrscheinlichkeit), bekommt er kaum Punkte.
- Die Metapher: Es ist, als würde ein Trainer einem Athleten, der ohnehin schon gut ist, eine Goldmedaille geben, während er dem Athleten, der sich gerade erst verbessert und unsicher ist, kaum Beachtung schenkt. Der Schüler lernt also nicht dort, wo er es wirklich braucht. Das nennt das Paper „Gradient Misassignment" (Falsche Zuordnung).
Das Problem bei den „Schlechten" Antworten (Negative Samples):
Wenn der Schüler eine falsche Antwort gibt, die er aber extrem sicher war (er war sich 100% sicher, dass 2+2=5), explodieren die „Bestrafungen". Diese eine, sehr falsche, aber selbstsichere Antwort dominiert das ganze Training. Andere, weniger schlimme Fehler werden ignoriert.
- Die Metapher: Ein einziger, sehr lauter, störrischer Schüler, der sich absolut sicher ist, dass er recht hat, schreit so laut, dass der Lehrer den Rest der Klasse gar nicht mehr hören kann. Das Training wird instabil. Das nennt das Paper „Gradient Domination" (Dominanz der Gradienten).

2. Die Lösung: Der neue Lehrer (REAL)

Das Paper schlägt vor, die Sichtweise zu ändern. Statt zu sagen: „Du hast 0,8 Punkte für diese Antwort", sagt der neue Lehrer: „Das ist eine richtige Antwort (Label 1) oder eine falsche Antwort (Label 0)."

Stell dir vor, der Lehrer behandelt die Aufgabe nicht wie eine Punktzahl, sondern wie ein Klassifizierungs-Spiel (wie „Richtig oder Falsch?").

Wie es funktioniert:
Der Lehrer sagt: „Wir haben eine Gruppe von Versuchen. Wir müssen die guten von den schlechten trennen."
Er nutzt eine Art Wippe (oder eine Waage).
- Wenn eine Antwort gut ist, schiebt er sie sanft nach oben.
- Wenn eine Antwort schlecht ist, drückt er sie sanft nach unten.
Der Clou (Die „Anker"):
Der Lehrer hat einen festen Anker in der Mitte (bei 0).
- Gute Antworten müssen über den Anker kommen.
- Schlechte Antworten müssen unter den Anker rutschen.
  Das verhindert, dass jemand zu weit nach oben oder unten geschleudert wird. Es gibt eine natürliche Obergrenze für die „Bestrafung" oder „Belohnung".

3. Warum ist das besser?

Keine Explosionen: Da die „Bestrafung" für falsche Antworten begrenzt ist (wie ein Dämpfer an einer Feder), kann ein einzelner, sehr sicherer Fehler das ganze Training nicht mehr sprengen.
Fairer für Unsichere: Auch wenn der Schüler bei einer richtigen Antwort unsicher war, bekommt er jetzt eine klare, starke Rückmeldung, weil das System darauf achtet, die Lücke zwischen „Gut" und „Schlecht" zu vergrößern, nicht nur die Sicherheit zu belohnen.
Stabilität: Das Training läuft wie ein geöltes Uhrwerk. Es gibt keine wilden Schwankungen mehr.

4. Das Ergebnis

Die Autoren haben das an echten Mathe-Aufgaben getestet (von einfachen bis zu Olympiaden-Niveau).

Das Ergebnis: Der neue Lehrer (REAL) hat den Schüler deutlich besser gemacht als die alten Methoden.
Die Zahlen: Auf kleinen Modellen (1,5 Milliarden Parameter) war REAL um 6,7 % besser als der vorherige Spitzenreiter. Auf großen Modellen (7 Milliarden Parameter) war es immer noch deutlich besser.
Der Bonus: Das System war so stabil, dass sie sogar auf einen zusätzlichen „Sicherheitsgurt" (KL-Strafe, die man sonst braucht, damit die KI nicht verrückt wird) verzichten konnten.

Zusammenfassung in einem Satz

Das Paper sagt: „Hör auf, KI-Modellen Punkte für ihr Selbstvertrauen zu geben, und fang an, sie wie eine einfache Ja/Nein-Klassifizierung zu trainieren – das macht das Lernen fairer, stabiler und deutlich effektiver."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert fundamentale Mängel bei bestehenden Methoden des Reinforcement Learning with Verifiable Rewards (RLVR), insbesondere bei Group Relative Policy Optimization (GRPO) und deren Varianten (wie DAPO, GSPO). Obwohl diese Methoden erfolgreich zur Verbesserung von Large Language Models (LLMs) in komplexen Aufgaben wie mathematischem und Programm-Reasoning eingesetzt werden, leiden sie unter zwei kritischen Problemen bei der Gradientenverteilung:

Gradienten-Fehlzuweisung bei Positiven (Gradient Misassignment in Positives): Bei korrekten Antworten (Positive Rollouts) erhalten Tokens, die bereits eine hohe Wahrscheinlichkeit haben, unverhältnismäßig große Updates. Gleichzeitig werden „harte" Tokens (die unter der aktuellen Policy eine niedrige Wahrscheinlichkeit haben, aber dennoch korrekt sind) mit zu schwachen Gradienten behandelt. Dies führt dazu, dass unteroptimierte Bereiche der Policy nicht ausreichend korrigiert werden.
Gradienten-Dominanz bei Negativen (Gradient Domination in Negatives): Bei falschen Antworten (Negative Rollouts) sind die Gradientenmagnituden nicht nach oben begrenzt. Tokens mit sehr hoher Wahrscheinlichkeit (die jedoch falsch sind) dominieren das Update und überlagern die Beiträge informativerer, aber weniger wahrscheinlicher Tokens. Dies führt zu einem instabilen Training und einer unausgewogenen Kreditvergabe.

Diese Mismatches führen zu ineffizienten Policy-Updates, einer erhöhten Gefahr vorzeitiger Konvergenz in suboptimale lokale Optima und Instabilität im Training (z. B. Entropie-Kollaps oder -Explosion).

2. Methodik: REAL (Rewards as Labels)

Die Autoren schlagen REAL vor, ein neues Framework, das RLVR aus einer Klassifikationsperspektive neu betrachtet.

Kernidee: Anstatt verifizierbare Belohnungen (Rewards) als skalare Gewichte für den Policy-Gradienten zu behandeln, werden sie als kategoriale Labels (0 oder 1) interpretiert. Die Policy-Optimierung wird somit als Klassifikationsproblem reformuliert: Das Ziel ist es, erwünschte (positive) von unerwünschten (negativen) Rollouts basierend auf den Verifikationskriterien zu unterscheiden.
Logits und Scores: Für jede Generierung (Rollout) wird ein length-normalisierter relativer Log-Probability-Score ( $\bar{s}$ ) berechnet. Dieser misst die relative Änderung der Wahrscheinlichkeit des Rollouts unter der neuen Policy im Vergleich zur alten Policy.
Zielfunktion (Loss):
- REAL nutzt eine unifizierte Softmax-Cross-Entropy-Funktion, um positive und negative Logits zu trennen.
- Anker-Logits (Anchor Logits): Um die Trainingsrichtung zu stabilisieren und mehrdeutige Updates zu vermeiden, wird ein fester Anker-Logit bei 0 eingeführt. Positive Rollouts sollen einen Score > 0 erreichen, negative einen Score < 0.
- Der finale Loss ( $L_{REAL}$ ) kombiniert den Verlust für positive Rollouts (gegen den Anker) und negative Rollouts (gegen den Anker).
Gradienten-Eigenschaften:
- Im Gegensatz zu GRPO induziert REAL eine monotone und nach oben beschränkte Gradientengewichtung.
- Die Gradientenmagnituden sind durch $1/\tau $(wobei$ \tau$ ein Temperatur-Parameter ist) begrenzt.
- Dies wirkt als eine implizite, adaptive Form des Gradient-Clippings: Unsichere positive Beispiele erhalten stärkere Gradienten, während extrem hohe negative Scores nicht das gesamte Update dominieren können.
- Vorteil: Durch diese Beschränkung ist REAL auch ohne explizite KL-Divergenz-Strafterme stabil, was den Rechenaufwand reduziert.

3. Wichtige Beiträge

Identifikation fundamentaler Probleme: Das Paper liefert eine theoretische und empirische Analyse, die zeigt, dass GRPO-artige Methoden durch Gradienten-Fehlzuweisung bei Positiven und Gradienten-Dominanz bei Negativen ineffizient sind.
Neues Framework (REAL): Die Umformulierung von RLVR als Klassifikationsproblem mit kategorialen Labels statt skalaren Gewichten.
Theoretische Analyse: Beweis, dass REAL monotone und beschränkte Gradienten erzeugt, was eine ausgewogene Kreditvergabe über alle Rollouts hinweg garantiert.
Umfassende Validierung: Ausgedehnte Experimente auf verschiedenen mathematischen Reasoning-Benchmarks und Modellgrößen belegen die Überlegenheit von REAL.

4. Ergebnisse

Die Experimente wurden auf Benchmarks wie AIME 2024/2025, MATH 500, AMC 2023, Minerva und Olympiad Bench durchgeführt, basierend auf den Modellen DeepSeek-R1-Distill-Qwen (1.5B und 7B).

Leistungssteigerung:
- Auf dem 1.5B-Modell verbessert REAL die durchschnittliche Pass@1-Leistung gegenüber dem starken Baseline DAPO um 6,7 %.
- Auf dem 7B-Modell übertrifft REAL DAPO um 6,2 % und GSPO um 1,7 %.
- Selbst mit einer einfachen binären Kreuzentropie (ohne Anker-Logits) bleibt REAL stabil und schlägt DAPO im Durchschnitt um 4,5 %.
Trainingsstabilität:
- Während GRPO unter Entropie-Kollaps und DAPO unter Entropie-Explosion leiden, zeigt REAL über 1.400 Trainingsschritte eine stabile Entropie.
- Dies führt zu konsistenten Verbesserungen sowohl bei den Trainings-Belohnungen als auch bei den Validierungsscores.
Robustheit: REAL bleibt auch ohne expliziten KL-Strafterm stabil, was die Notwendigkeit solcher Regularisierungsterme bei diesem Ansatz infrage stellt.

5. Bedeutung und Fazit

Das Paper bietet einen Paradigmenwechsel in der RLVR-Forschung. Anstatt die Komplexität von GRPO-Varianten durch zusätzliche Heuristiken (wie asymmetrisches Clipping) zu managen, löst REAL die zugrundeliegenden Gradientenprobleme durch eine fundamentale Neugestaltung der Zielfunktion.

Prinzipielle Stabilität: Die Umwandlung in ein Klassifikationsproblem mit beschränkten Gradienten bietet einen natürlicheren Weg zu stabilen und effizienten Policy-Updates.
Skalierbarkeit: Die Methode skaliert effektiv von kleinen (1.5B) zu größeren Modellen (7B) und ist auf verschiedene Datensätze übertragbar.
Zukunftsausblick: REAL etabliert die Klassifikationsreformulierung als einen prinzipiellen Pfad für das Training von Reasoning-Modellen und könnte zukünftig als Standard für RLVR-Methoden dienen, um die Entwicklung robusterer und zuverlässigerer KI-Systeme zu fördern.

Rewards as Labels: Revisiting RLVR from a Classification Perspective

1. Das Problem: Der ungerechte Lehrer (GRPO)

2. Die Lösung: Der neue Lehrer (REAL)

3. Warum ist das besser?

4. Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: REAL (Rewards as Labels)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference