Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Leraar die zichzelf bedient

Stel je voor dat je een zeer slimme robot (een groot taalmodel) wilt leren wiskunde oplossen.

De oude manier (RLHF/RLVR): Je hebt een strenge leraar nodig die bij elke opgave kijkt of het antwoord goed is. Als het goed is, krijgt de robot een snoepje (beloning). Als het fout is, krijgt hij een tik op de vingers. Dit werkt goed, maar het kost enorm veel tijd en geld om die leraar te vinden en te betalen. Bovendien kan de leraar niet bij alle onderwerpen (zoals het schrijven van computercode of het bedenken van nieuwe ideeën) omdat hij de antwoorden soms niet kent.
De nieuwe manier (INTUITOR): Wat als de robot zijn eigen leraar wordt? Wat als hij leert door naar zichzelf te kijken en te zeggen: "Hé, ik ben hier heel zeker van! Dit voelt goed aan!"?

Dit paper introduceert INTUITOR, een methode waarbij de AI leert zonder externe leraars, zonder snoepjes en zonder antwoordbladen. Hij leert puur op basis van zijn eigen zelfvertrouwen.

Hoe werkt het? (De Vergelijkingen)

1. Het Zelfvertrouwen als Kompas

Stel je voor dat je in een donker bos loopt (een moeilijk probleem).

Bij de oude methode moet iemand anders met een flitslicht (de leraar) naar je toe komen en zeggen: "Je bent op het goede pad!" of "Je loopt de verkeerde kant op!".
Bij INTUITOR heeft de robot geen flitslicht nodig. Hij kijkt naar zijn eigen hartslag. Als hij een oplossing bedenkt en zijn "hartslag" (zijn interne zekerheid) is hoog, denkt hij: "Ja, dit voelt waar aan!" Als zijn hartslag laag is, denkt hij: "Nee, hier twijfel ik aan."

De robot probeert dan steeds meer oplossingen te vinden die hem dat sterke, "ja, dit klopt"-gevoel geven. Hij traint zichzelf door te zoeken naar die gevoelens van zekerheid.

2. De "Gokke" en de "Zekere"

Stel je voor dat de robot 7 keer een antwoord probeert te geven op een vraag.

De oude methode: De leraar kijkt naar het antwoord en zegt: "Antwoord 3 is goed, de rest is fout."
De nieuwe methode (INTUITOR): De robot kijkt naar zijn eigen 7 antwoorden en zegt: "Antwoord 3 voelt het meest overtuigend aan. Ik heb er het meeste vertrouwen in." Hij leert dan om vaker die manier van denken te gebruiken.

Het paper noemt dit Self-Certainty (Zelfzekerheid). Het is een meetlat die de robot zelf gebruikt om te zien hoe goed hij een antwoord vindt.

Wat hebben ze ontdekt?

De onderzoekers hebben dit getest met een robot genaamd Qwen (een slimme AI). Hier zijn de resultaten, vertaald naar alledaags taal:

Net zo goed als de leraar: Op wiskundepuzzels deed de robot die zichzelf leerde (INTUITOR) bijna even goed als de robot die een echte leraar had.
Beter in nieuwe dingen: Dit is het coolste deel. De robot die zichzelf leerde op wiskunde, werd plotseling ook heel goed in het schrijven van computercode. De robot met de leraar werd dat niet.
- Vergelijking: Stel je voor dat je iemand traint om een pianist te worden. De robot met de leraar wordt een goede pianist, maar kan niet drummen. De robot die zichzelf leerde, wordt niet alleen een goede pianist, maar blijkt ook een fantastische drummer te zijn! Hij heeft de vaardigheid om te redeneren geleerd, niet alleen de specifieke antwoorden.
Hij begint na te denken: Voordat de robot een antwoord geeft, begint hij steeds meer te "praten" tegen zichzelf. Hij schrijft een langere, logische redenering op papier voordat hij het eindantwoord geeft. Het lijkt alsof hij zijn eigen gedachten ordent om zich zelf meer zeker te voelen.

Waarom is dit belangrijk?

Tot nu toe moesten we AI's trainen met enorme hoeveelheden menselijke correcties. Dat is duur en traag.
Met INTUITOR kunnen AI's zichzelf verbeteren, zelfs als er geen menselijke expert is die het antwoord kent.

Voorbeeld: Als we in de toekomst AI's willen die medische diagnoses stellen voor zeldzame ziekten waar geen dokter de oplossing voor heeft, of nieuwe wetenschappelijke theorieën bedenken, kunnen we geen leraar vinden die het antwoord weet. Maar met deze methode kan de AI zichzelf leren door te zeggen: "Ik heb hier een sterke, logische reden voor," en dat gebruiken als beloning.

Samenvatting in één zin

INTUITOR is een slimme truc waarbij een AI stopt met wachten op een leraar die zegt "goed zo", en in plaats daarvan leert door te luisteren naar zijn eigen gevoel van zekerheid, waardoor hij niet alleen beter wordt in wat hij al kent, maar ook slimme sprongen maakt naar nieuwe vaardigheden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Learning to Reason Without External Rewards

Auteurs: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song (UC Berkeley, Yale University)

1. Het Probleem

Grote Taalmodellen (LLMs) worden momenteel succesvol getraind voor complex redeneren via Reinforcement Learning with Verifiable Rewards (RLVR). Bij RLVR worden modellen getraind met beloningen die gebaseerd zijn op objectief verifieerbare antwoorden (bijvoorbeeld exacte matchen in wiskunde of het slagen van testcases in code).

Hoewel effectief, heeft RLVR fundamentele beperkingen:

Afhankelijkheid van externe supervisie: Het vereist "gold-standard" oplossingen of uitgebreide test suites, wat duur en domeinspecifiek is.
Beperkte generalisatie: Het werkt goed in domeinen waar antwoorden makkelijk te verifiëren zijn (wiskunde, code), maar faalt in open-ended scenario's of domeinen zonder duidelijke ground truth.
Kosten: Het verzamelen van menselijke feedback (RLHF) of het bouwen van verifiers is resource-intensief.

De centrale onderzoeksvraag is: Kunnen LLMs hun redeneervermogen verbeteren door uitsluitend te vertrouwen op intrinsieke, zelf gegenereerde signalen, zonder externe verifiers of gelabelde data?

2. Methodologie: RLIF en INTUITOR

De auteurs introduceren een nieuw paradigma: Reinforcement Learning from Internal Feedback (RLIF). In plaats van externe beloningen te gebruiken, optimaliseert het model zijn eigen interne signalen om de prestaties te verbeteren.

De specifieke implementatie heet INTUITOR.

Kernconcept: Self-Certainty

INTUITOR gebruikt zelfverzekerdheid (self-certainty) als enige intrinsieke beloningssignaal.

Definitie: Self-certainty wordt gedefinieerd als de gemiddelde KL-divergentie tussen de uniforme verdeling over het vocabulaire en de voorspellingsverdeling van het model voor de volgende token.
Logica: Modellen vertonen over het algemeen een lagere zelfverzekerdheid bij moeilijke problemen of wanneer ze twijfelen. Een hogere zelfverzekerdheid correleert vaak met correctheid en coherentie. Door te belonen voor hogere zelfverzekerdheid, wordt het model gestimuleerd om redeneerpaden te verfijnen die het zelf als overtuigend beschouwt.
Voordeel: Deze maatstaf is minder gevoelig voor bias ten opzichte van langere generaties (een veelvoorkomend probleem bij perplexiteit) en is "mode-seeking" (gericht op de meest waarschijnlijke uitkomst) in plaats van "mode-covering".

Implementatie: GRPO met Self-Certainty

INTUITOR integreert dit concept in het Group Relative Policy Optimization (GRPO) algoritme, een populaire variant van PPO die recentelijk succesvol is gebruikt voor modellen zoals DeepSeek-R1.

Proces: Voor elke query $q$ worden $G$ mogelijke antwoorden ( $o_1, ..., o_G$ ) gegenereerd.
Beloning: In plaats van een externe reward (zoals "juist/fout"), krijgt elke output $o_i$ een score gebaseerd op de self-certainty: $u_i = \text{Self-certainty}(o_i|q)$ .
Advantage Estimation: De voordelen (advantages) worden berekend door de relatieve prestaties binnen de groep te normaliseren:
$\hat{A}_{i,t} = \frac{u_i - \text{mean}(\{u_1, ..., u_G\})}{\text{std}(\{u_1, ..., u_G\})}$
Optimalisatie: Het beleid wordt bijgewerkt om de kans op het genereren van antwoorden met een hogere self-certainty te maximaliseren, zonder enige externe ground truth.

3. Belangrijkste Bijdragen

Introductie van RLIF: Een nieuw paradigma dat LLMs in staat stelt om te leren zonder externe supervisie of gelabelde data.
Ontwikkeling van INTUITOR: Een efficiënte methode die self-certainty als enige beloning gebruikt, wat leidt tot volledig ongesuperviseerd leren.
Empirisch Bewijs: Demonstratie dat INTUITOR prestaties op in-domein taken (wiskunde) kan evenaren met gesuperviseerde RLVR-methoden, maar superieure generalisatie toont naar out-of-domein taken.
Ontdekking van Emergent Redeneren: Het aantonen dat intrinsieke beloningen leiden tot gestructureerd, langdurig redeneren en betere instructie-opvolging, zelfs bij modellen die oorspronkelijk niet goed in staat waren tot chat-interacties.

4. Resultaten en Analyse

De experimenten zijn uitgevoerd met Qwen2.5-modellen (1.5B en 3B parameters) getraind op het MATH-dataset.

In-domein Prestaties (Wiskunde):
- INTUITOR behaalt vergelijkbare resultaten op benchmarks zoals GSM8K en MATH500 als GRPO (dat gebruikmaakt van gouden antwoorden).
- Het model leert sneller in de vroege fasen van training vergeleken met GRPO.
Out-of-Domein Generalisatie:
- Code Generatie: INTUITOR toont een significante verbetering in generalisatie naar code-taken (LiveCodeBench, CRUXEval). Waar GRPO geen verbetering boekte op LiveCodeBench na training op wiskunde, zag INTUITOR een 65% relatieve verbetering.
- Instructie-opvolging: Modellen die oorspronkelijk nonsensical output produceerden (bijv. Qwen2.5-1.5B), leren coherent redeneren en instructies volgen na INTUITOR-finetuning.
Gestuctureerd Redeneren:
- INTUITOR stimuleert het ontstaan van "long-form reasoning". Modellen beginnen met het genereren van gedetailleerde redeneringen in natuurlijke taal voordat ze het uiteindelijke antwoord of de code geven, zelfs als de prompt dit niet expliciet vereist.
- Dit patroon wordt waargenomen bij zowel wiskundige als programmeertaken.
Robuustheid tegen Reward Hacking:
- Een kritieke bevinding is dat online self-certainty (waarbij de beloningsscore wordt berekend door het actuele beleid dat traint) voorkomt dat het model "reward hacking" toepast (bijv. het toevoegen van irrelevante tekst om de score te verhogen).
- In tegenstelling tot statische, offline beloningen, evolueert de online beloning mee met het model, wat leidt tot stabiele training zonder degradatie van de kwaliteit.

5. Betekenis en Toekomstperspectief

De bevindingen van dit paper hebben een grote impact op de ontwikkeling van autonome AI-systemen:

Schaalbaarheid: RLIF biedt een schaalbaar alternatief voor RLVR, omdat het geen menselijke annotatie of domeinspecifieke verifiers vereist. Dit maakt het mogelijk om modellen te trainen op domeinen waar geen "juiste antwoord" bestaat.
Autonome Verbetering: Het suggereert dat LLMs rijkere latente gedragspriors hebben dan eerder werd aangenomen. Ze kunnen zichzelf verbeteren door introspectie, wat een stap is naar AI-systemen die supermenselijke capaciteiten kunnen ontwikkelen zonder dat mensen deze direct kunnen evalueren.
Toekomst: De auteurs pleiten voor verdere theoretische analyse van RLIF en het combineren van intrinsieke signalen met externe beloningen (zoals RLHF) voor nog complexere real-world uitdagingen.

Kortom, INTUITOR bewijst dat een model zijn eigen vertrouwen kan gebruiken als een krachtige kompasnaald voor leren, waardoor het mogelijk wordt om geavanceerde redeneervermogens te ontwikkelen in een volledig ongesuperviseerde setting.