CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep jonge detectives (de AI) traint om moeilijke raadsels op te lossen, zoals wiskundepuzzels of programmeertaal. Je wilt dat ze leren wat goed is en wat fout, zodat ze in de toekomst elke soort raadsel kunnen oplossen, niet alleen de specifieke die ze in de les hebben geoefend.

Vroeger gebruikten de makers een methode genaamd GRPO. Hierbij kregen de detectives een opdracht, en ze stuurden er een heleboel verschillende pogingen op af. De methode keek dan naar het gemiddelde van alle pogingen.

Als je poging beter was dan dat gemiddelde, kregen ze een beloning (een "plusje").
Als je poging slechter was dan het gemiddelde, kregen ze een straf (een "minnetje").

Het probleem met GRPO:
Stel dat de opdracht heel moeilijk is en niemand van de detectives het goed heeft. Iedereen maakt fouten.

Poging A is een enorme ramp.
Poging B is ook een ramp, maar iets minder erg dan A.
Het gemiddelde is dus een enorme ramp.

Omdat GRPO alleen naar het gemiddelde kijkt, krijgt Poging B een beloning (een plusje), simpelweg omdat hij "beter" was dan de rest van de rampen. De AI leert hieruit: "Oh, ik hoef niet perfect te zijn, ik hoef alleen maar iets minder slecht te zijn dan mijn vrienden, dan krijg ik een prijs."
Dit zorgt ervoor dat de AI blijft vastzitten in slechte oplossingen en niet echt leert om de juiste antwoorden te vinden. Ze worden "overmoedig" in hun fouten.

De oplossing: CoRPO (De "Eerlijkheids-Filter")
De auteurs van dit papier hebben een simpele maar slimme aanpassing bedacht, genaamd CoRPO. Ze voegen een vaste regel toe aan het spel: "Als je antwoord fout is, krijg je nooit een plusje, hoe goed je ook bent vergeleken met de anderen."

Ze noemen dit een "correctness bias" (een bias naar juistheid).

Hoe werkt het in het dagelijks leven?
Stel je voor dat je een klasje kinderen traint om een taart te bakken.

GRPO: Als de hele klas een taart maakt die verbrand is, maar één taart is net iets minder verbrand dan de rest, krijgt die ene taart een sterretje. De kinderen leren: "Het maakt niet uit of de taart eetbaar is, zolang hij maar de minste verbrande taart is."
CoRPO: De leraar zegt: "Er is een vaste lijn. Als de taart niet eetbaar is (onder de 'correctheidslinie'), krijg je geen sterretje, ook niet als je de minste verbrande taart hebt. Je krijgt alleen een ster als de taart echt eetbaar is."

Waarom is dit zo goed?

Geen vals vertrouwen: De AI leert dat fouten echt fout zijn, zelfs als iedereen anders ook fouten maakt. Ze worden niet beloond voor "minder slecht zijn".
Beter leren: Omdat de AI niet wordt beloond voor halve oplossingen, moet ze echt zoeken naar de juiste manier om het probleem op te lossen.
Alleskunner: Het meest interessante resultaat is dat AI's die met CoRPO zijn getraind op programmeertaken, ook veel beter zijn in wiskunde (en andersom). Ze hebben niet geleerd "hoe je dit specifieke raadsel oplost", maar ze hebben geleerd hoe je redeneert. Ze hebben een algemene vaardigheid ontwikkeld in plaats van een trucje voor één situatie.

Kort samengevat:
GRPO zegt: "Wees beter dan je vrienden."
CoRPO zegt: "Wees eerst goed, en daarna pas beter dan je vrienden."

Door die simpele regel toe te voegen, voorkomt de AI dat ze in een valkuil van slechte gewoonten terechtkomen, en leert ze in plaats daarvan robuuste vaardigheden die ze overal kunnen gebruiken. Het is alsof je een kompas toevoegt dat altijd naar "Waarheid" wijst, zodat je niet verdwaalt in een bos van gemiddelde oplossingen.

Each language version is independently generated for its own context, not a direct translation.

Titel: CoRPO: Het toevoegen van een juistheidsbias aan GRPO verbetert generalisatie

1. Het Probleem: Beperkingen van GRPO

Group-Relative Policy Optimization (GRPO) is de facto standaard geworden voor het trainen van redeneervermogen in grote taalmodellen (LLM's) via Reinforcement Learning from Verifiable Rewards (RLVR). GRPO elimineert de noodzaak van een geleerde 'critic' (waardefunctie) door de voordelen (advantages) te schatten op basis van het gemiddelde van een groep gesamplede trajecten voor dezelfde prompt.

De auteurs identificeren echter twee fundamentele beperkingen in de GRPO-baseline die leiden tot overfitting en slechte generalisatie:

Over-schatting van voordelen door sampling-variantie: Omdat GRPO het gemiddelde van een kleine groep (bijv. 4-16 rollouts) gebruikt als baseline, kan dit steekproefgemiddelde lager zijn dan het werkelijke verwachte rendement. Hierdoor krijgen zelfs suboptimale of foutieve trajecten een positief voordeel, wat leidt tot te agressieve updates.
Positieve voordelen voor foutieve trajecten (Sign Inversion): Wanneer beloningen ordinaal zijn (bijv. geschaalde kwaliteitsscores) en niet perfect gekalibreerd, kan een foutief traject een positief voordeel krijgen als het "minder slecht" is dan de gemiddelde prestatie van de groep. Dit versterkt onjuist gedrag in plaats van het te onderdrukken, wat de leercurve inverteert.

Dit resulteert in "distribution sharpening", waarbij het model te snel exploiteert op een smal scala aan oplossingen en faalt bij generalisatie naar out-of-domain (OOD) taken.

2. Methodologie: Correctness-Relative Policy Optimization (CoRPO)

Om deze problemen op te lossen, stellen de auteurs CoRPO voor. Dit is een eenvoudige maar effectieve modificatie van de GRPO-objective die een correctheidsdrempel introduceert.

Kernmechanisme: In plaats van puur te vertrouwen op het groepsgemiddelde ( $b_{mean}$ ), wordt de baseline afgeknepen (geclipt) op een vaste minimum correctheidsdrempel ( $R_{min\_correct}$ ).
- Formule: $b_{CoRPO} = \max(R_{min\_correct}, b_{mean})$
- Het voordeel wordt dan: $A_{CoRPO}(y_i) = R(y_i) - b_{CoRPO}$
Twee leerregimes:
1. Correctheid-zoekend regime: Als het groepsgemiddelde onder de correctheidsdrempel ligt (vaak vroeg in training of bij moeilijke taken), wordt de baseline gefixeerd op $R_{min\_correct}$ . Hierdoor krijgen alle foutieve trajecten (met een beloning onder de drempel) gegarandeerd een negatief voordeel. Dit voorkomt dat fouten worden beloond.
2. Kwaliteit-zoekend regime: Zodra het model betrouwbaar correcte oplossingen produceert (groepsgemiddelde > drempel), schakelt de baseline terug naar het groepsgemiddelde. Hierdoor kunnen correcte oplossingen nog steeds met elkaar concurreren op kwaliteit.
Theoretisch voordeel: Deze clipping introduceert een beschermende bias die over-schatting van voordelen mitigeert en ervoor zorgt dat onjuist gedrag nooit positief wordt versterkt, ongeacht de samenstelling van de groep.

3. Belangrijkste Bijdragen

Analyse van GRPO-fouten: Het identificeren van twee specifieke faalmodi van GRPO: over-schatting van voordelen door steekproefvariantie en het verlenen van positieve voordelen aan foutieve trajecten bij ordinaire beloningen.
Ontwerp van CoRPO: Het voorstellen van een simpele baseline-aanpassing (clipping) die beide problemen oplost terwijl de computerefficiëntie van GRPO behouden blijft.
Empirisch bewijs voor generalisatie: Het aantonen dat CoRPO leidt tot robuustere, overdraagbare redeneerpatronen in plaats van taakspecifieke heuristieken.

4. Resultaten

De auteurs trainden modellen op coderings- en wiskundetaakken (gebaseerd op Qwen3-8B) en vergeleken GRPO met CoRPO.

Cross-Domain Generalisatie: Modellen getraind met CoRPO presteren aanzienlijk beter op out-of-domain (OOD) taken.
- Voorbeeld: Een model getraind op codering presteerde beter op wiskundetaakken dan een GRPO-model dat op codering was getraind (90,1% vs 88,8% pass@16).
- Dit suggereert dat CoRPO algemene redeneerpatronen leert in plaats van domeinspecifieke oplossingen.
Training Dynamics:
- GRPO vertoont een sterke "rank bias" en distribution sharpening (het model focust te snel op de meest waarschijnlijke oplossingen).
- CoRPO leert voornamelijk door negatieve versterking van fouten in de vroege fase. Dit creëert een impliciete curriculum learning: eerst onjuist gedrag elimineren, daarna kwaliteit verbeteren.
- CoRPO vertoont een trager begin op moeilijke taken, maar bereikt uiteindelijk een hoger eindniveau en beter behoud van diversiteit.
Robuustheid: CoRPO presteert zelfs beter dan GRPO bij zeer kleine groepsgroottes (n=4), wat aantoont dat de methode robuust is tegenover hoge variantie in de schatting van het gemiddelde.

5. Significatie

Deze paper biedt een cruciale verbetering voor de RLVR-landbouw (Reinforcement Learning from Verifiable Rewards).

Stabiliteit: Het lost het fundamentele probleem op waarbij GRPO onjuiste gedrag kan versterken, wat vaak leidt tot instabiele training of "mode collapse".
Efficiëntie: Het behoudt de rekenkundige voordelen van GRPO (geen extra critic nodig) terwijl het de generalisatiecapaciteit van het model drastisch verbetert.
Toekomstige richting: De bevindingen suggereren dat het prioriteren van correctheid boven relatieve ranking essentieel is voor het trainen van LLM's die betrouwbaar redeneren over diverse domeinen. CoRPO biedt een pad naar meer robuuste AI-systemen die minder vatbaar zijn voor overfitting op trainingsdata.

Kortom, CoRPO transformeert GRPO van een methode die puur op relatieve ranking leunt, naar een methode die een absolute waarborg voor correctheid integreert, wat resulteert in superieure generalisatie en stabiliteit.

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Titel: CoRPO: Het toevoegen van een juistheidsbias aan GRPO verbetert generalisatie

1. Het Probleem: Beperkingen van GRPO

2. Methodologie: Correctness-Relative Policy Optimization (CoRPO)

3. Belangrijkste Bijdragen

4. Resultaten

5. Significatie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation