CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Blinde" Lehrer (GRPO)

Stell dir vor, du trainierst einen Schüler (eine KI), um Mathe oder Programmieren zu lernen. Du nutzt eine Methode namens GRPO.

Wie funktioniert das?
Der Lehrer gibt dem Schüler 10 Aufgaben. Der Schüler löst sie alle. Dann schaut der Lehrer auf die Durchschnittsnote dieser 10 Lösungen.

Wenn eine Lösung besser ist als der Durchschnitt, bekommt sie ein Lob (positiver Vorteil).
Wenn sie schlechter ist, bekommt sie eine Rüge (negativer Vorteil).

Das Problem dabei:
Stell dir vor, der Schüler ist am Anfang sehr schlecht. Er macht bei 9 von 10 Aufgaben einen riesigen Fehler. Bei einer einzigen Aufgabe macht er einen kleinen Fehler, aber er ist immer noch falsch.

Der Durchschnitt ist extrem schlecht (weil 9 Aufgaben katastrophal waren).
Die eine „schlechte" Lösung ist zwar falsch, aber besser als der katastrophale Durchschnitt.
Die Folge: Der Lehrer lobt die falsche Lösung! „Hey, das ist besser als der Rest!" sagt er.
Der Schüler denkt: „Aha! Ich muss also nur etwas besser sein als die anderen Fehler, um belohnt zu werden." Er lernt nicht, richtig zu sein, sondern nur, weniger falsch zu sein als die anderen. Das nennt man „Überoptimierung" oder „Fehlleistung".

Die Lösung: Der strenge Prüfer (CoRPO)

Die Autoren des Papers schlagen CoRPO vor. Das ist wie ein neuer, strengerer Lehrer, der eine wichtige Regel einführt: Die „Richtigkeits-Schwelle".

Stell dir vor, es gibt eine rote Linie auf dem Boden.

Alles, was unter dieser Linie liegt, ist „falsch" oder „unbrauchbar".
Alles, was darüber liegt, ist „korrekt".

Wie CoRPO funktioniert:
Der neue Lehrer ignoriert den Durchschnitt der Gruppe komplett, wenn die Gruppe schlecht abschneidet.

Die Regel: „Wenn eine Lösung unter der roten Linie (der Mindestanforderung für Richtigkeit) liegt, gibt es niemals Lob." Egal, ob sie besser ist als die anderen 9 Katastrophen oder nicht. Falsch bleibt falsch.
Der Effekt: Der Schüler lernt sofort: „Ich muss erst die rote Linie erreichen, um überhaupt eine Chance auf Lob zu haben."
Wenn die Gruppe gut ist: Wenn die meisten Lösungen schon über der roten Linie liegen, schaltet der Lehrer wieder auf den Durchschnitt um, um zu entscheiden, welche der guten Lösungen die beste ist.

Warum ist das so genial? (Die Analogie des Bergsteigers)

Stell dir vor, du leitest eine Gruppe von Bergsteigern (die KI) auf einem steilen Berg (dem Lernprozess).

Bei GRPO (der alte Weg): Du schaust auf die Gruppe. Wenn die meisten in einem tiefen Loch stecken, lobst du denjenigen, der nur einen halben Meter höher steht. Der Bergsteiger denkt: „Super, ich bin fast oben!" und bleibt dort stehen. Er lernt nicht, den echten Gipfel zu erreichen, sondern nur, nicht im tiefsten Loch zu stecken.
Bei CoRPO (der neue Weg): Du hast eine Karte mit einem „Sicherheitsgürtel". Solange jemand unter dem Sicherheitsgürtel ist, gibt es kein Lob. Du sagst: „Bis du den Sicherheitsgürtel erreicht hast, ist alles, was du tust, vergeblich."
- Das zwingt die Gruppe, sich wirklich anzustrengen, um den Gürtel zu erreichen.
- Sobald sie den Gürtel erreicht haben, fängt der Wettbewerb an, wer am höchsten kommt.

Was bringt das in der Praxis?

Die Forscher haben das an KIs getestet, die Mathe und Programmieren lernen.

Bessere Generalisierung: Die KIs, die mit CoRPO trainiert wurden, waren nicht nur gut in den Aufgaben, die sie gelernt haben. Sie konnten ihr Wissen viel besser auf neue, unbekannte Aufgaben übertragen (wie ein Schüler, der das Prinzip verstanden hat, statt nur die Lösungen auswendig zu lernen).
Keine „Fake-Lernkurve": Bei der alten Methode (GRPO) sah es oft so aus, als würde die KI schnell besser werden, weil sie lernte, Fehler zu minimieren. Aber wenn man sie auf neue Aufgaben stellte, brach sie zusammen. CoRPO-KIs waren am Anfang vielleicht etwas langsamer, aber am Ende viel robuster und zuverlässiger.
Lernen durch „Nicht-Falsch-Sein": CoRPO nutzt die Bestrafung von Fehlern (negatives Lob) als starken Motor. Es sagt der KI: „Vermeide erst mal alles, was falsch ist." Erst wenn das sicher ist, wird nach Perfektion gesucht.

Zusammenfassung in einem Satz

CoRPO ist wie ein Lehrer, der einem Schüler sagt: „Es bringt dir nichts, der Beste der Klasse zu sein, wenn die ganze Klasse durchfällt. Erst wenn du die Mindestnote erreichst, zählt dein Rang."

Dadurch lernt die KI nicht nur, Fehler zu vermeiden, sondern entwickelt ein echtes Verständnis für Richtigkeit, das sie auch auf völlig neue Probleme anwenden kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper identifiziert fundamentale Mängel in Group-Relative Policy Optimization (GRPO), dem derzeitigen Standardalgorithmus für das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bei Large Language Models (LLMs).

Funktionsweise von GRPO: GRPO schätzt den Vorteil (Advantage) einer Aktion, indem die Belohnung eines einzelnen Trajektoriums vom Durchschnitt der Belohnungen einer Gruppe von Stichproben (Rollouts) für denselben Prompt subtrahiert wird. Es verzichtet auf einen gelernten Critic, was die Rechenkosten senkt.
Das Kernproblem: Die Verwendung des Gruppenmittelwerts als Basislinie (Baseline) führt zu zwei kritischen Fehlern:
1. Überschätzung des Vorteils (Advantage Overestimation): Da der Gruppenmittelwert auf einer kleinen Stichprobe (typischerweise 4–16 Rollouts) basiert, schwankt er um den wahren Erwartungswert. Wenn der Stichprobenmittelwert zufällig unter dem wahren Erwartungswert liegt, erhalten auch suboptimale oder falsche Lösungen einen positiven Vorteil, da sie „besser als der Durchschnitt" sind. Dies führt zu übermäßig aggressiven Updates.
2. Falsche Verstärkung bei ordinalen Belohnungen: In Szenarien mit ordinalen Belohnungen (z. B. Ratings von -2 bis +2 durch einen LLM-Judge) kann eine objektiv falsche Lösung einen positiven Vorteil erhalten, wenn sie nur „weniger schlecht" ist als die anderen fehlerhaften Lösungen in der Gruppe. Dies invertiert das Lernsignal und verstärkt fehlerhaftes Verhalten.

Diese Mechanismen führen zu Distribution Sharpening (die Wahrscheinlichkeitsmasse konzentriert sich auf eine kleine Menge von Lösungen) und einer schlechten Generalisierung auf Out-of-Domain (OOD) Aufgaben.

2. Methodik: CoRPO (Correctness-Relative Policy Optimization)

Die Autoren schlagen CoRPO vor, eine einfache, aber effektive Modifikation der GRPO-Zielfunktion, die eine „Korrektur-Bias" (Correctness Bias) einführt.

Der Mechanismus: CoRPO klemmt (clipt) die Gruppenmittelwert-Baseline nach unten auf einen festen Korrekturschwellenwert ( $R_{min\_correct}$ $R_{min_cor r ec t}$ ).
- Die neue Baseline wird berechnet als: $b_{CoRPO} = \max(R_{min\_correct}, b_{mean})$ .
- Der Vorteil berechnet sich dann als: $A_{CoRPO}(y_i) = R(y_i) - b_{CoRPO}$ .
Zwei Lernregime:
1. Korrektur-Such-Regime (Correctness-Seeking): Wenn die durchschnittliche Belohnung der Gruppe unter dem Schwellenwert liegt ( $b_{mean} < R_{min\_correct}$ ), wird die Baseline auf $R_{min\_correct}$ fixiert. In diesem Modus erhalten alle Trajektorien mit einer Belohnung unter diesem Schwellenwert garantiert einen negativen Vorteil. Dies verhindert, dass falsche Lösungen positiv verstärkt werden, unabhängig von der Gruppenzusammensetzung.
2. Qualitäts-Such-Regime (Quality-Seeking): Sobald die Gruppe zuverlässig korrekte Lösungen liefert ( $b_{mean} \ge R_{min\_correct}$ ), fällt die Baseline wieder auf den Gruppenmittelwert zurück. Hier übernimmt CoRPO wieder die relative Vergleichsfunktion von GRPO, um hochwertige Lösungen innerhalb der korrekten Menge zu bevorzugen.
Theoretische Vorteile:
- Garantierte Negativität für Fehler: Fehlerhafte Trajektorien erhalten niemals einen positiven Vorteil.
- Reduzierte Überschätzung: Durch das Anheben der Baseline bei schlechten Gruppen wird die Überschätzung des Vorteils bei Stichprobenvarianz unterdrückt.
- Exploration vs. Exploitation: Das Modell lernt primär durch negative Verstärkung von Fehlern, was eine frühe vorzeitige Ausbeutung (premature exploitation) verhindert und die Exploration fördert.

3. Wichtige Beiträge

Analyse von GRPO-Fehlern: Identifikation und formale Analyse zweier Fehlermodi: Vorteil-Überschätzung durch Stichprobenvarianz und Signum-Inversion bei ordinalen Belohnungen.
Einführung von CoRPO: Ein einfacher Algorithmus (ein max-Operator), der beide Probleme löst, ohne die Recheneffizienz von GRPO zu beeinträchtigen.
Empirischer Nachweis: Demonstration, dass CoRPO die Generalisierung über Domänen hinweg signifikant verbessert und robusteres, übertragbares Reasoning lernt.

4. Experimentelle Ergebnisse

Die Autoren trainierten Verifikationsmodelle für Coding und Mathematik (basierend auf Qwen3-8B) und verglichen GRPO mit CoRPO.

Cross-Domain Generalisierung: Modelle, die mit CoRPO auf Coding-Daten trainiert wurden, schnitten auf Mathematik-Aufgaben (OOD) besser ab als GRPO-Modelle (90,1% vs. 88,8% Pass@16), und umgekehrt. Dies zeigt, dass CoRPO allgemeine Reasoning-Muster lernt und nicht domänenspezifische Heuristiken.
Training-Dynamik:
- GRPO zeigt eine hohe Trainingsgenauigkeit, aber eine schlechtere Validierungsleistung auf OOD-Daten (Überanpassung/Distribution Sharpening).
- CoRPO zeigt eine langsamere Progression auf schwierigen In-Domain-Aufgaben zu Beginn, erreicht aber am Ende ein gleichwertiges Niveau und übertrifft GRPO deutlich bei OOD-Aufgaben.
- Implizites Curriculum Learning: CoRPO unterdrückt zunächst suboptimale Pfade (negative Verstärkung) und führt das Modell erst später zu schwierigeren Beispielen, was zu stabilerem Lernen führt.
Robustheit bei kleiner Gruppengröße: Selbst bei nur 4 Rollouts pro Prompt (wo GRPO stark verzerrt ist) übertrifft CoRPO GRPO bereits nach 100 Schritten, da die geklemmte Baseline ein stabileres Lernsignal liefert.
Verhalten bei Fehlern: In frühen Trainingsphasen erhalten bei GRPO ca. 18% der fehlerhaften Trajektorien fälschlicherweise einen positiven Vorteil. CoRPO eliminiert dieses Phänomen vollständig.

5. Bedeutung und Fazit

CoRPO adressiert eine fundamentale Schwäche in der aktuellen RLVR-Praxis für LLMs. Indem es sicherstellt, dass Fehler niemals positiv verstärkt werden, verhindert es das Erlernen von „Tricks", die nur in der Trainingsverteilung funktionieren, aber bei Distribution Shifts versagen.

Praktische Relevanz: Die Methode ist einfach zu implementieren (nur eine Zeile Code-Änderung), benötigt keine zusätzlichen Modelle (Critic) und verbessert die Generalisierungsfähigkeit von Reasoning-Modellen erheblich.
Zukunftsperspektive: CoRPO legt nahe, dass für verifizierbare Aufgaben die absolute Korrektheit (Correctness) als primäres Lernziel vor der relativen Qualität (Ranking) stehen sollte. Dies könnte den Weg für robustere, sicherere und besser generalisierende KI-Systeme ebnen, die weniger anfällig für Overfitting auf Trainingsdaten sind.

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Das Problem: Der „Blinde" Lehrer (GRPO)

Die Lösung: Der strenge Prüfer (CoRPO)

Warum ist das so genial? (Die Analogie des Bergsteigers)

Was bringt das in der Praxis?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: CoRPO (Correctness-Relative Policy Optimization)

3. Wichtige Beiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization