CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Each language version is independently generated for its own context, not a direct translation.

CLIPO: De "Groepsleermeester" voor Slimme Computers

Stel je voor dat je een groep leerlingen hebt die een heel moeilijk wiskundepuzzel moeten oplossen. Ze mogen het antwoord niet opzoeken, maar moeten het zelf bedenken.

Het oude probleem (RLVR): Alleen het eindresultaat telt
Tot nu toe leerden we deze computers (LLMs) met een methode die we RLVR noemen. Dit werkt als een strenge leraar die alleen kijkt naar het eindantwoord.

Als het antwoord goed is, krijgt de leerling een gouden ster (beloning).
Als het antwoord fout is, krijgt hij een rode kruis (straf).

Het grote nadeel: Stel, een leerling schrijft 10 stappen op. In stap 3 maakt hij een gigantische fout, maar door een gelukstreffer of een raadselachtige sprong komt hij toch op het juiste eindantwoord. De leraar geeft hem een gouden ster.

Gevolg: De computer leert dat "raar doen" oké is, zolang het maar goed uitkomt. Hij begint te "hallucineren" (dromen) of antwoorden te kopiëren zonder ze te begrijpen. Hij leert niet hoe je redeneert, maar alleen wat het antwoord is.

De nieuwe oplossing: CLIPO
De auteurs van dit paper hebben een slimme truc bedacht: CLIPO (Contrastive Learning in Policy Optimization). Ze voegen een nieuw element toe: de groepsdynamiek.

In plaats van alleen naar het eindantwoord te kijken, kijken ze nu naar hoe de leerlingen het hebben opgelost.

De Analogie: De "Perfecte" Groep

Stel je voor dat je 16 leerlingen (een "groep") een probleem laat oplossen.

Sommigen komen op het juiste antwoord.
Sommigen komen op het foute antwoord.

Wat doet CLIPO?
CLIPO kijkt naar de 16 goede antwoorden en zegt: "Kijk eens! Deze 16 leerlingen hebben allemaal een heel verschillende weg gevolgd, maar ze zijn allemaal op het juiste antwoord uitgekomen. Wat hebben ze gemeen?"

Ze zoeken naar de gemeenschappelijke logica.
Ze zeggen: "De stappen die deze 16 goede leerlingen allemaal hebben gezet, zijn de 'wauw'-stappen. Die moeten we onthouden."
Ze kijken ook naar de leerlingen die het fout deden en zeggen: "Jullie hebben stappen gezet die de anderen niet deden. Dat was waarschijnlijk de fout."

De "Contrastieve" Kracht
Het woord "Contrastive" betekent hier: Vergelijken en onderscheiden.

CLIPO duwt de goede oplossingen dichter bij elkaar in een denkbeeldige ruimte (alsof je ze in een kring zet).
CLIPO duwt de slechte oplossingen ver weg van die kring.

Het is alsof je een magneet gebruikt. De goede antwoorden worden aangetrokken door elkaar (want ze delen dezelfde logica), en de slechte antwoorden worden weggeduwd.

Waarom is dit beter?

Stel je voor dat je een leerling traint die een fout heeft gemaakt, maar toch het juiste antwoord kreeg.

Oude methode: "Goed zo! Hier is je ster." (De leerling denkt: "Ik mag fouten maken, zolang het maar goed uitkomt.")
CLIPO-methode: "Je hebt het juiste antwoord, maar kijk eens naar de andere 15 goede leerlingen. Zij deden het op een logische manier. Jij deed het op een rare manier. Je moet je manier aanpassen om meer op de 'groep' te lijken."

Dit zorgt ervoor dat de computer niet meer raadt of "knopt", maar echt redeneert. Het maakt de computer robuuster, zodat hij ook problemen kan oplossen die hij nog nooit heeft gezien (bijvoorbeeld als de vraag net iets anders wordt geformuleerd).

Samenvattend in 3 simpele punten:

Het probleem: Computers leren nu alleen van het eindantwoord, waardoor ze trucs leren in plaats van logica.
De oplossing (CLIPO): We laten de computer kijken naar een groep van goede antwoorden en vragen: "Wat hebben jullie allemaal gemeen?"
Het resultaat: De computer leert de "essentie" van goed redeneren. Hij wordt slimmer, betrouwbaarder en maakt minder rare hallucinaties.

Kortom: CLIPO is alsof we een computer niet alleen laten leren van de winnaar, maar van de winnaars als groep, zodat ze de echte regels van het spel begrijpen in plaats van alleen de prijs te willen pakken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR", geschreven in het Nederlands.

1. Probleemstelling

De paper adresseert een fundamentele beperking van Reinforcement Learning met Verifieerbare Beloningen (RLVR), een paradigma dat recentelijk grote vooruitgangen heeft geboekt in het redeneervermogen van Large Language Models (LLMs).

Outcome-only Feedback: Bestaande RLVR-methoden (zoals GRPO) vertrouwen uitsluitend op een binaire beloning (0 of 1) gebaseerd op het eindantwoord. Ze verifiëren niet de juistheid van de tussenliggende redeneerstappen.
Hallucinaties en "Answer Copying": Dit leidt tot het fenomeen waarbij modellen paden leren die foutieve tussenstappen bevatten maar toch het juiste eindantwoord genereren. Modellen kunnen hierdoor "hallucineren" of het juiste antwoord kopiëren zonder de onderliggende logica te begrijpen.
Slechte Generalisatie: Omdat het model niet leert onderscheid te maken tussen logisch sounde en spuriöze redeneringen, presteert het vaak slecht op nieuwe, verstoorde (perturbed) of symbolische taken waar het eindantwoord niet direct uit het geheugen kan worden opgehaald.
Kosten van Process Reward Models (PRM): Bestaande oplossingen die processtappen evalueren (PRMs) vereisen vaak dure menselijke annotatie, wat schaalbaarheid beperkt.

2. Methodologie: CLIPO

De auteurs stellen CLIPO (Contrastive Learning in Policy Optimization) voor, een framework dat contrastief leren integreert in groepsgewijze policy-optimalisatie om de RLVR-proces te generaliseren.

Kernprincipes:

Intuïtie: Succesvolle redeneerpaden delen een onderliggende, invariante logische structuur, terwijl fouten en hallucinaties vaak sporadisch en ongecorreleerd zijn. Door de gelijkenis tussen succesvolle paden te maximaliseren, kan het model deze "overlap" of invariante structuur extraheren.
Architectuur:
1. Contrastive Head: Een lichtgewicht extra laag wordt toegevoegd aan de LLM-backbone. Deze projecteert de laatste verborgen staten van een redeneertraject naar een semantische inbeddingsruimte.
2. Intra-groep Contrastief Leren: Tijdens training worden voor elke prompt een groep van rollouts (antwoorden) gegenereerd.
  - Positieve paren: Succesvolle rollouts (juiste eindantwoord) worden als positieve voorbeelden behandeld.
  - Negatieve paren: Mislukte rollouts (verkeerd eindantwoord) fungeren als negatieve voorbeelden.
3. InfoNCE Loss: Er wordt een InfoNCE-objectief (Information Noise Contrastive Estimation) toegepast om de afstand tussen succesvolle trajecten in de embeddingruimte te minimaliseren en de afstand tot mislukte trajecten te maximaliseren.
Reward Integratie: De contrastieve loss wordt omgezet in een dichte, aanvullende beloningssignaal ( $r_{CL}$ ). De totale beloning voor een rollout wordt:
$r'_i = r_i + r_{CL,i}$
Waarbij $r_i$ de originele binaire verifieerbare beloning is en $r_{CL,i}$ de contrastieve beloning die afgeleid is van de loss. Dit biedt een fijnmazigere gradiënt dan alleen de binaire feedback.

Implementatie Details:

Sentence-Level Representatie: Token-level hidden states worden gemiddeld (mean pooling) om een enkele vector per traject te krijgen.
Conditionering: De contrastieve loss wordt alleen toegepast op groepen waar $1 < |P| < G$ (d.w.z. er is ten minste één succesvol en één mislukt antwoord in de groep).
Temperatuur: Een lage temperatuur ( $\tau$ ) wordt gebruikt om de discriminatie tussen positieve en negatieve paren te scherpen.

3. Belangrijkste Bijdragen

Generalisatie van RLVR: CLIPO is het eerste framework dat contrastief leren naadloos integreert in groepsgewijze RLVR-methoden (zoals GRPO, GSPO, DAPO) zonder menselijke annotatie voor procesfeedback.
Robuustheid tegen Hallucinaties: Door de invariante logische structuur van succesvolle paden te forceren, onderdrukt CLIPO effectief foutieve tussenstappen en hallucinaties, zelfs als het eindantwoord correct is.
Dichtheid in Beloningssignalen: Het introduceert een dichte, relationele beloning die de beperkingen van de schaarse, binaire verifieerbare beloningen oplost.
Universele Toepasbaarheid: Het framework is compatibel met bestaande RLVR-algoritmen en werkt over verschillende modelarchitecturen (Qwen, Llama, DeepSeek) en domeinen (wiskunde, code, agentenplanning).

4. Resultaten

De auteurs hebben CLIPO getest op twee tracks met toenemende complexiteit:

Track I (GSM8K & General Reasoning):
- Getraind op GSM8K, getest op diverse benchmarks (GSM8K-Symbolic, GSM8K-Perturb, CommonsenseQA, MMLU, etc.).
- Resultaat: CLIPO verbetert consistent de prestaties van GRPO, GSPO, DAPO en GMPO.
- Verbetering: De grootste winst wordt geboekt op verstoord en symbolisch redeneren (bijv. +3.36 punten op GSM8K-P2), wat aantoont dat het model beter generaliseert naar distributieveranderingen.
- Algemene Redenering: CLIPO behaalt de beste of tweede beste scores op alle algemene redeneringsbenchmarks, zonder in te leveren op algemene kennis.
Track II (Competitie-niveau Wiskunde):
- Getraind op MATH 7.5k, getest op MATH500, Math-Perturb, AMC, AIME.
- Resultaat: DAPO+CLIPO bereikt de hoogste gemiddelde score (44.05), een verbetering van +1.20 ten opzichte van de basis DAPO.
- Robuustheid: Op de "Math-Perturb" datasets (waar problemen bewust zijn verstoord) toont CLIPO aanzienlijke verbeteringen, wat bevestigt dat het model de onderliggende logica heeft geleerd in plaats van oppervlakkige patronen.
Ablatie Studies:
- Contrastive Head: Het bevriezen van de contrastive head (zonder training) leidt tot een prestatiedaling, wat aantoont dat het leren van de embedding-ruimte essentieel is.
- Temperatuur: Lagere temperaturen ( $\tau \approx 0.02$ ) werken beter dan hoge temperaturen, omdat ze de focus op "harde negatieven" versterken.
- Groepsgrootte: Grotere groepen rollouts (bijv. 32 in plaats van 16) leiden tot betere prestaties door een rijker aanbod van positieve en negatieve voorbeelden.

5. Betekenis en Conclusie

CLIPO vertegenwoordigt een paradigmaverschuiving in het trainen van redenerende LLMs. In plaats van te vertrouwen op dure menselijke annotatie voor procesfeedback of te vertrouwen op ruwe binaire uitkomsten, gebruikt CLIPO de inherent relationele structuur tussen succesvolle oplossingen als een schaalbaar leersignaal.

Wetenschappelijke Impact: Het paper toont aan dat contrastief leren effectief kan worden gebruikt om de "invariante logica" van redenering te distilleren, wat leidt tot modellen die robuuster zijn tegen hallucinaties en beter generaliseren naar nieuwe taken.
Praktische Toepassing: De methode is plug-and-play voor bestaande RLVR-pipelines en vereist geen extra infrastructuur voor menselijke feedback. Dit maakt het een veelbelovende route voor het schalen van redeneervermogen in complexe domeinen zoals wiskunde, codegeneratie en autonome agenten.

Kortom, CLIPO lost het probleem van "procesfouten met correcte uitkomsten" op door de semantische consistentie van succesvolle paden te versterken, waardoor LLMs betrouwbaarder en generaliseerbaarder worden.

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

CLIPO: De "Groepsleermeester" voor Slimme Computers

De Analogie: De "Perfecte" Groep

Waarom is dit beter?

Samenvattend in 3 simpele punten:

1. Probleemstelling

2. Methodologie: CLIPO

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers