Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge kok bent die leert koken. Je hebt een meesterkok (het AI-model) die je helpt.

In de traditionele manier van leren (wat de paper "RLVR" noemt), kijkt de meesterkok alleen naar het eindresultaat: "Is het gerecht eetbaar?"

Als het antwoord "Ja" is, krijgt de kok een sterretje.
Als het antwoord "Nee" is, krijgt hij een rode vlag.

Het probleem:
Stel, de kok probeert een taart te maken. Hij vergeet de eieren, gebruikt zout in plaats van suiker, en zet de taart in de oven op de verkeerde stand. Maar door een wonder (of pure geluk) komt er toch een taart uit die er perfect uitziet en smaakt. De traditionele methode geeft de kok een sterretje.

Gevolg: De kok leert: "Ah, ik kan zout gebruiken en de oven op de verkeerde stand zetten! Dat werkt!" De volgende keer doet hij het weer, maar nu mislukt het. Hij heeft een slechte gewoonte aangeleerd omdat hij de manier waarop hij het deed niet beoordeeld heeft, alleen het resultaat.

De Oplossing: "Goede Redenering is een Goede Leraar"

De auteurs van dit papier zeggen: "Wacht even. Niet alle goede antwoorden zijn gelijk."

Ze introduceren een nieuw concept: Demonstratie Nut (of Demonstration Utility).
Stel je voor dat de kok twee recepten ziet die beide tot dezelfde taart leiden:

Recept A: Een chaotisch krabbelpad. "Oh, ik heb suiker nodig... wacht, misschien zout? Nee, suiker. Oh, ik heb de oven al aan. Laat me maar de deur openen." Het resultaat is goed, maar het pad was rommelig.
Recept B: Een helder, logisch stappenplan. "Eerst suiker, dan eieren, dan de oven op 180 graden."

Als de kok deze recepten als voorbeeld (demonstratie) gebruikt om andere taarten te maken, zal Recept B hem veel beter helpen dan Recept A. Recept B is een betere leraar.

De Magische Meting: "Bewijswinst" (Evidence Gain)

Hoe meet je nu welke leraar beter is, zonder dat je een dure menselijke expert nodig hebt om elke stap te controleren?

De auteurs gebruiken een slimme truc: Ze laten de AI zichzelf testen.

Stel je voor dat je de AI vraagt: "Als ik dit recept (Recept A of B) aan een andere AI laat zien, kan die andere AI dan sneller en beter een nieuwe taart bakken?"

Als Recept A wordt getoond, leert de andere AI weinig.
Als Recept B wordt getoond, leert de andere AI veel.

Het verschil in leerkracht noemen ze Bewijswinst (Evidence Gain).

Hoge Bewijswinst: Het recept is logisch en helder (een goede leraar).
Lage Bewijswinst: Het recept is rommelig, zelfs als het antwoord klopt (een slechte leraar).

De Nieuwe Methode: "In-Context RLVR"

Normaal gesproken zou je voor elke stap moeten rekenen hoeveel "Bewijswinst" er is, wat extreem langzaam en duur is. De auteurs vinden een slimmere manier.

In plaats van na het koken te meten hoeveel nut het recept had, doen ze het voor het koken:

Ze pakken een goed recept (een voorbeeld) uit hun archief.
Ze plakken dit recept bovenop de vraag die de AI moet oplossen.
De AI probeert dan de nieuwe taart te bakken, geïnspireerd door dat goede voorbeeld.

Waarom werkt dit?
Wiskundig gezien (zoals de paper uitlegt) gebeurt er iets moois: door het goede voorbeeld toe te voegen, beloont het systeem van nature de AI voor het volgen van die goede logica.

Als de AI een logisch pad volgt, past het zich goed aan het voorbeeld aan en krijgt hij een "sterker" signaal.
Als de AI een chaotisch pad volgt (dat toevallig goed uitpakt), past het zich slecht aan het voorbeeld aan en krijgt hij een "zwakker" signaal.

Het is alsof je de kok niet alleen een sterretje geeft voor de taart, maar hem ook een gouden medaille geeft als hij de manier waarop hij de taart maakte, lijkt op die van de meesterkok.

Samenvatting in één zin

Deze paper zegt: "Laten we AI niet alleen belonen voor het juiste antwoord, maar ook voor de kwaliteit van het denkproces, door te kijken of dat denkproces een goed voorbeeld is voor anderen. En we doen dit slim, zonder dure extra tests, door de AI gewoon een goed voorbeeld te laten zien voordat hij begint."

Het resultaat: De AI wordt niet alleen slimmer in het vinden van antwoorden, maar leert ook hoe je goed redeneert, waardoor hij minder fouten maakt in de toekomst.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning", geschreven in het Nederlands.

Probleemstelling

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtige methode om redeneervermogen in Large Language Models (LLM's) te verbeteren, vooral in domeinen zoals wiskunde waar de juistheid van het eindantwoord objectief kan worden gecontroleerd. Een fundamenteel nadeel van de huidige RLVR-aanpak is echter dat alle correcte oplossingen dezelfde beloning (reward) krijgen, ongeacht de kwaliteit van het redeneringsproces dat tot dat antwoord heeft geleid.

Dit leidt tot twee problemen:

Toevalsgedrag: Modellen kunnen flawed (foutieve) redeneringstraces produceren die per toeval het juiste antwoord geven. RLVR versterkt deze traces even sterk als hoogwaardige redeneringen.
Corruptie van strategieën: Het versterken van deze "gelukkige" maar slechte redeneringen kan de interne strategieën van het model beschadigen, wat resulteert in slechtere prestaties op andere problemen.

Bestaande oplossingen, zoals Process Reward Models (PRM's), vereisen uitgebreide menselijke annotatie of extra getrainde evaluatoren, wat kostbaar en schaalbaarheidsproblemen introduceert. De vraag is hoe men hoogwaardig redeneren kan stimuleren binnen RLVR zonder stap-voor-stap toezicht of externe evaluatoren.

Methodologie

Het paper introduceert een nieuwe aanpak die gebruikmaakt van de inherente In-Context Learning (ICL) capaciteit van het model zelf om de kwaliteit van redenering te meten en te optimaliseren.

1. Demonstration Utility en Evidence Gain

De kerninzicht is dat hoogwaardige redeneringstraces betere "docenten" zijn dan slechte. Als een trace wordt gebruikt als voorbeeld (demonstratie) in de context van een nieuwe vraag, helpt een hoogwaardige trace het model meer dan een slechte.

Demonstration Utility: Het vermogen van een oplossing om als effectief voorbeeld te fungeren.
Evidence Gain ( $\Delta$ ): Een kwaliteitssignaal dat deze utility kwantificeert. Het wordt berekend als het gemiddelde verschil in log-likelihood van het genereren van hoogwaardige referentie-oplossingen (op een vastgehouden validatiestel) wanneer een kandidaat-trace als demonstratie wordt toegevoegd, vergeleken met wanneer deze niet wordt toegevoegd.
- Formule: $\Delta(q, r) = \mathbb{E}_{e \sim E} [\log \pi_\theta(e_r | q, r, e_q) - \log \pi_\theta(e_r | e_q)]$
- Een hoge $\Delta$ betekent dat de trace $r$ waardevolle, overdraagbare probleemoplossingspatronen bevat.

2. In-Context RLVR (Implicit Reward Reweighting)

Het direct berekenen van Evidence Gain als beloning voor elke stap zou te veel rekenkracht kosten. De auteurs lossen dit op door het proces om te draaien via In-Context RLVR:

Proces: Voordat het model een antwoord genereert (rollout), wordt er een demonstratie (een vraag en een hoogwaardige referentietrace) uit een validatiestel geselecteerd en aan de huidige vraag toegevoegd. Het model wordt vervolgens getraind op deze "geconditioneerde" input.
Theoretische onderbouwing: Via Bayesiaanse analyse wordt aangetoond dat het trainen met deze demonstraties equivalent is aan het trainen op de basisverdeling, maar met beloningen die impliciet worden hergeweegt (reweighted) op basis van de Evidence Gain.
Mechanisme: De trainingsdoelstelling versterkt automatisch traces met een hoge $\Delta$ (hoogwaardig redeneren) en vermindert de impact van traces met een lage $\Delta$ , zonder dat $\Delta$ expliciet hoeft te worden berekend tijdens de training.

Belangrijkste Bijdragen

Evidence Gain: Een nieuw kwaliteitssignaal dat de kwaliteit van redenering meet door gebruik te maken van de inherente ICL-vaardigheden van het beleidmodel zelf, zonder externe evaluatoren of stap-voor-stap toezicht.
In-Context RLVR: Een trainingsparadigma dat demonstraties tijdens de training voorvoegt aan de input, waardoor hoogwaardige traces impliciet zwaarder wegen dan slechte traces.
Efficiëntie en Prestaties: De methode introduceert minder dan 5% extra trainings overhead en verbetert zowel de nauwkeurigheid als de kwaliteit van het redeneren ten opzichte van standaard RLVR-methoden.

Resultaten

De methode is geëvalueerd op wiskundige benchmarks (zoals AIME24, AIME25, HMMT25, MATH500) met modellen van 1.5B en 7B parameters (DeepSeek-R1-Distill-Qwen).

Prestatieverbetering: De voorgestelde methode (IC-DAPO) overtreft de standaard DAPO-baseline met gemiddeld +2.5 punten. De verbeteringen zijn het grootst op uitdagende competitie-benchmarks (bijv. +5.6 op AIME24 voor het 1.5B model), wat aantoont dat de methode vooral helpt bij problemen waar "gelukkige" maar slechte redeneringen vaak voorkomen.
Vergelijking met SOTA: IC-DAPO presteert beter dan of gelijk aan geavanceerde methoden die de RL-doelstelling zelf modificeren (zoals GSPO en CISPO), maar doet dit uitsluitend door de inputverdeling aan te passen.
Kwaliteit van Redeneren: Analyse toont aan dat de gemiddelde Evidence Gain tijdens het trainen stijgt en correleert met hogere kwaliteitscores (beoordeeld door een sterke LLM-evaluator). Dit bevestigt dat het model daadwerkelijk beter redeneert en niet alleen betere antwoorden gis.
Stabiliteit: De correlatie tussen Evidence Gain en redeneringskwaliteit blijft stabiel gedurende de hele training, wat aantoont dat het signaal robuust is naarmate het model verbetert.

Significantie

Dit paper biedt een elegante en kostenefficiënte oplossing voor het probleem van "reward hacking" en het versterken van slechte redenering in RLVR.

Paradigmaverschuiving: Het toont aan dat input-side modificaties (het toevoegen van demonstraties) een orthogonale verbeteringsrichting zijn ten opzichte van het optimaliseren van de RL-algoritmes zelf.
Zelfevaluatie: Het benut de eigen capaciteiten van het model om kwaliteit te beoordelen, wat de afhankelijkheid van dure menselijke annotatie of externe reward-modellen elimineert.
Praktische toepasbaarheid: Met een minimale overhead (<5%) biedt het een schaalbare route om de redeneerkwaliteit van LLM's te verbeteren, wat essentieel is voor de ontwikkeling van betrouwbare AI-systemen in complexe domeinen zoals STEM.

Kortom, het paper bewijst dat "goed redeneren goede demonstraties maakt" en gebruikt deze eigenschap om RLVR-trainingen te sturen naar hoogwaardige redeneringspatronen, zonder de complexiteit van process-supervision.

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

De Oplossing: "Goede Redenering is een Goede Leraar"

De Magische Meting: "Bewijswinst" (Evidence Gain)

De Nieuwe Methode: "In-Context RLVR"

Samenvatting in één zin

Probleemstelling

Methodologie

1. Demonstration Utility en Evidence Gain

2. In-Context RLVR (Implicit Reward Reweighting)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models