Generalization of RLVR Using Causal Reasoning as a Testbed

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe leer je een computer om echt na te denken? (En waarom kleine hersens soms vastlopen)

Stel je voor dat je een zeer slimme, maar nog jonge robot (een Large Language Model of LLM) hebt. Deze robot kan al veel, maar hij is nog niet goed in het oplossen van complexe puzzels waarbij hij logisch moet redeneren. De onderzoekers van dit paper wilden uitvinden hoe je zo'n robot het beste kunt trainen om beter te worden in het oplossen van deze puzzels.

Ze gebruikten een specifieke soort puzzel: Causale Redenering.
Dit is als het oplossen van een detectiveverhaal: "Als ik de lamp uitdoe (oorzaak), wordt het dan donker (gevolg)? En wat als ik de lamp had uitgedaan, terwijl ik wist dat het al donker was?"

Hier is de kern van hun ontdekking, vertaald in simpele taal:

1. Twee manieren om te leren: "Zomaar doen" vs. "Probeer en corrigeer"

De onderzoekers testten twee methoden om de robot te trainen:

SFT (Supervised Fine-Tuning): Dit is als een leraar die de antwoorden uit een antwoordboekje voorschrijft. De robot moet de oplossing kopiëren. Hij leert het antwoord uit het hoofd, maar begrijpt misschien niet waarom het zo is.
RLVR (Reinforcement Learning with Verifiable Rewards): Dit is als een trainingskamp. De robot probeert een oplossing, en een strenge scheidsrechter (een computerprogramma) zegt direct: "Goed!" of "Fout! Probeer het opnieuw." De robot leert door fouten te maken en te zien wat er werkt.

2. De grote ontdekking: Het hangt af van hoe slim de robot al is

Dit is het belangrijkste punt van het paper. De onderzoekers ontdekten dat de "Probeer en corrigeer"-methode (RLVR) alleen werkt als de robot al een beetje slim is.

De "Grote Breinen" (32 miljard parameters): Deze robots hadden al een goed gevoel voor logica voordat ze begonnen. Toen ze de "Probeer en corrigeer"-training kregen, werden ze supersterk. Ze leerden niet alleen het antwoord, maar ook hoe ze stap-voor-stap moesten redeneren. Ze werden beter in het oplossen van moeilijke puzzels dan de robots die gewoon het antwoordboekje moesten kopiëren.
De "Kleine Breinen" (3 miljard parameters): Deze robots waren nog te onervaren. Ze probeerden eerst wel te redeneren, maar maakten zoveel fouten dat ze in de war raakten. Toen ze de "Probeer en corrigeer"-training kregen, gaven ze het op. In plaats van te blijven redeneren, begonnen ze te gokken of het antwoord direct te raden. De training werkte hier dus niet; het maakte ze zelfs een beetje lui.

De Analogie:
Stel je voor dat je een kind leert fietsen.

Als het kind al een beetje evenwicht heeft (een "groot brein"), helpt een trainer die zegt "Val niet, probeer het opnieuw" enorm. Het kind leert snel.
Als het kind nog nooit heeft gelopen (een "klein brein"), en je zegt "Val niet, probeer het opnieuw", zal het kind waarschijnlijk op de grond blijven liggen en denken: "Fietsen is te moeilijk, ik ga maar lopen." De trainer helpt hier niet; het kind moet eerst leren lopen (de basisvaardigheden) voordat de trainer kan helpen.

3. Wat leerden de slimme robots precies?

De onderzoekers keken heel nauwkeurig naar wat de robots deden. Ze ontdekten dat de succesvolle training (RLVR) twee dingen verbeterde:

Het "Stap-voor-stap" plan: De slimme robots leerden om de puzzel in kleine stukjes op te splitsen (zoals een recept volgen) in plaats van te proberen het hele antwoord in één keer te raden.
Minder fouten in de logica: Ze maakten minder fouten in hun redenering, zoals het vergeten van belangrijke regels of het verkeerd interpreteren van de situatie.

4. Waarom is dit belangrijk?

Dit paper geeft ons een belangrijke les voor de toekomst van AI:

Je kunt niet alles met training oplossen. Als een AI-model nog te dom is voor een taak, helpt het trainen met "probeer en corrigeer" niet. Je moet eerst zorgen dat het model de basisbeginselen begrijpt.
RLVR is een krachtige tool, maar alleen voor de gevorderden. Zodra een model een zekere drempel van intelligentie heeft bereikt, kan deze methode het van een "goede" student veranderen in een "uitstekend" denker, vooral bij moeilijke vragen.

Kortom:
Om een computer echt slim te maken in het oplossen van complexe problemen, moet je eerst zorgen dat hij al een beetje slim is. Dan kun je hem trainen met een systeem van beloningen en correcties, waardoor hij zijn eigen redeneerstrategieën verbetert. Maar als hij nog te klein is, helpt die training niet; hij moet eerst de basis leren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Generalization of RLVR using Causal Reasoning as a Testbed

Auteurs: Brian Lu et al. (JHU, UMD, UIUC, Microsoft Research Asia, TTIC)
Conferentie: ICLR 2026

1. Het Probleem

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een veelbelovende methode voor het natrekken van grote taalmodellen (LLMs) op complexe redeneertaken zoals wiskunde en codegeneratie. Hoewel RLVR succesvol is, blijven de voorwaarden waaronder deze modellen robuste generalisatie vertonen (buiten hun trainingsdata) onderbelicht.

De auteurs identificeren een specifiek probleem: het is onduidelijk of RLVR de redeneercapaciteiten van een model fundamenteel verbetert of dat het succes afhankelijk is van de initiële competentie van het model en de complexiteit van de taak. Om dit te onderzoeken, kiezen ze voor causale redenering, een domein dat gestructureerd is, formeel definieerbaar is en verschillende niveaus van redenering vereist (associatie, interventie, contrafactuelen).

2. Methodologie

A. De Taak: RLCausal Dataset

De auteurs hebben een nieuwe dataset genaamd RLCausal gebouwd, specifiek ontworpen om generalisatie te testen.

Input: Een volledig gespecificeerd causaal grafisch model (DAG) met binaire variabelen en conditionele waarschijnlijkheidstabellen (CPT's), plus een query.
Output: Een waarschijnlijkheidsverdeling als antwoord.
Niveaus van de "Causale Ladder" (Pearl):
1. Associatie: Waarneming ( $P(Y|X=x)$ ).
2. Interventie: Actie/Do-bewerking ( $P(Y|do(X=x))$ ).
3. Contrafactueel: Hypothetisch scenario ( $P(Y_{X=x}|X=x')$ ).
Moeilijkheidsgraad: Gemeten door de grootte van het relevante subgraaf ( $|V_{rel}|$ ) dat nodig is voor de inferentie. De dataset bevat grafen met 10 knopen en varieert in structuur.

B. Trainingsparadigma's

De auteurs vergelijken twee benaderingen op het Qwen2.5-Instruct model (3B, 7B en 32B parameters):

Supervised Fine-Tuning (SFT): Het model leert direct het juiste antwoord te voorspellen zonder tussenstappen.
Reinforcement Learning with Verifiable Rewards (RLVR): Het model genereert een redeneerketen (Chain-of-Thought) gevolgd door een antwoord. De beloning ( $r$ $r$ ) is gebaseerd op:
- Nauwkeurigheid: De totale variatieafstand tussen het voorspelde antwoord en het grondwaarheid-antwoord (berekend via variabele-eliminatie).
- Formaat: Of het antwoord correct is geëxtraheerd.
- Gebruikte algoritmen: GRPO en DAPO.

C. Experimenteel Ontwerp

Within-level generalisatie: Trainen en testen op hetzelfde niveau (bijv. alleen interventie).
Across-level generalisatie: Trainen op één niveau en testen op een ander (bijv. trainen op associatie, testen op contrafactuelen).
Analyse: Gebruik van een LLM-judge (o4-mini) om redeneerstrategieën (incrementeel vs. brute force) en fouten (afleiding, rekenfouten, kopieerfouten) te analyseren.

3. Belangrijkste Resultaten

A. Generalisatieprestaties

RLVR vs. SFT: RLVR presteert significant beter dan SFT voor within-level en across-level generalisatie, maar alleen voor modellen van 7B parameters en groter.
De 3B Barrière: Voor 3B-modellen faalt RLVR vaak. Deze modellen vertonen geen verbetering en gaan zelfs terug naar het direct voorspellen van het antwoord zonder redenering, omdat hun initiële redeneercapaciteit te laag is ("cold start" probleem).
Schaling: De prestaties verbeteren sterk met modelgrootte. Een 32B model dat "zero-shot" redeneert (zonder fine-tuning) presteert vaak beter dan een 32B model dat met SFT is getraind om direct te antwoorden.

B. Effectiviteit van RLVR

RLVR is effectief in het verbeteren van specifieke vaardigheden, maar alleen als het model een sufficient initial reasoning competence heeft:

Strategieverschuiving: RLVR dwingt grotere modellen (7B/32B) om te schakelen van "brute force" sommatie (wat foutgevoelig is) naar incrementele marginalisatie (stap-voor-stap uitrekenen).
Foutreductie: RLVR vermindert aanzienlijk:
- Abstracte redeneerfouten (bijv. onterechte onafhankelijkheid aannemen, verwarring tussen interventie en observatie).
- Rekenfouten en kopieerfouten.
Complexiteit: RLVR-modellen presteren beter op complexere queries (grote subgrafen) dan SFT-modellen, die vaak alleen goed presteren op simpele gevallen.

C. Contrafactuele Redenering

Contrafactuele queries bleken het meest uitdagend. Zelfs met hints (bijv. het gebruik van "twin networks" in de prompt) slaagden modellen er niet in om deze consistent op te lossen. Dit suggereert dat de combinatie van abduction (het afleiden van exogene variabelen) en marginalisatie te complex is voor de huidige architecturen in deze formele setting.

4. Bijdragen en Significatie

Nieuw Testbed: De introductie van RLCausal, een dataset die causale redenering isoleert van natuurlijke taalverwerking, waardoor het mogelijk is om pure redeneerlogica te testen.
Inzicht in RLVR Grenzen: Het paper toont aan dat RLVR geen "wondermiddel" is dat automatisch redeneren creëert. Het is afhankelijk van de initiële competentie van het model. Als het model de basisredeneerstappen niet begrijpt voordat het met RLVR begint, zal het falen of terugvallen naar memorisatie.
Mechanisme van Verbetering: Het paper levert bewijs dat RLVR werkt door de redeneerstrategie te optimaliseren (incrementeel vs. brute force) en abstracte fouten te corrigeren, in plaats van alleen het antwoord te memoriseren.
Schalingswetten: Er wordt een sterk verband aangetoond tussen modelgrootte en de effectiviteit van redeneren. Grotere modellen hebben een betere "redeneerprior", wat RLVR in staat stelt om deze prior verder te verfijnen.

Conclusie

De studie concludeert dat RLVR een krachtige methode is om LLM's te verbeteren op formele causale redeneertaken, mits het basismodel al een voldoende niveau van redeneercompetentie bezit. Voor kleinere modellen (3B) of zeer complexe taken (contrafactuelen) is RLVR momenteel onvoldoende zonder aanvullende strategieën om de initiële competentie te verhogen. Dit onderstreept het belang van het kiezen van het juiste startpunt en de juiste taakcomplexiteit bij het toepassen van RLVR voor redenering.