Reward Is Enough: LLMs Are In-Context Reinforcement Learners

Each language version is independently generated for its own context, not a direct translation.

Titel: De Slimme Leraar die Zichzelf Leerde van zijn Eigen Fouten

Stel je voor dat je een zeer intelligente, maar nogal stijve robot hebt. Deze robot is een enorme bibliotheek van kennis (een "Large Language Model" of LLM). Hij kan alles vertellen wat hij in zijn training heeft gelezen, maar als je hem een nieuw, moeilijk probleem geeft, blijft hij vaak vastlopen. Hij weet niet hoe hij moet leren terwijl hij werkt; hij kan alleen maar herinneren.

Dit nieuwe onderzoek, getiteld "Reward is Enough: LLMs are In-Context Reinforcement Learners", ontdekt iets verrassends: deze robots kunnen plotseling leren terwijl ze antwoorden geven, zolang ze maar een simpele manier krijgen om te weten of ze het goed of fout hebben.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Robot die niet durft te experimenteren

Normaal gesproken moet je een robot maandenlang trainen met duizenden voorbeelden om hem slim te maken. Als hij een fout maakt, moet je hem opnieuw trainen. Dat is duur en traag.
In de echte wereld willen we echter dat een robot (of AI) direct kan leren van zijn eigen ervaringen, net zoals een kind dat leert lopen door te vallen en weer op te staan.

2. De Oplossing: De "Scorekaart" (De Beloning)

De onderzoekers hebben een simpele truc bedacht, genaamd ICRL Prompting.
Stel je voor dat je de robot een puzzel geeft (bijvoorbeeld: "Hoe maak je 24 met de getallen 4, 6, 8 en 8?").

Probeer 1: De robot geeft een antwoord.
De Score: In plaats van een lange tekstuele uitleg te geven ("Je hebt dit verkeerd, probeer dat anders"), krijgt de robot alleen een cijfer (een beloning).
- Goed antwoord? Cijfer 10.
- Fout antwoord? Cijfer 0.
De Herhaling: De robot krijgt nu zijn eigen antwoord én het cijfer terug in zijn geheugen. Vervolgens vraagt de onderzoekers: "Probeer het nog eens, maar let op je vorige score."
De Cyclus: Dit gaat door. De robot ziet een lijstje met: Antwoord A (Score 2), Antwoord B (Score 8), Antwoord C (Score 10).

3. De Magie: Het "Duck Test" (Is het een eend?)

Het meest fascinerende is dat de robot geen zware hersenoperatie nodig heeft om dit te doen. Hij hoeft niet opnieuw getraind te worden.
De onderzoekers zeggen: "Als het eruit ziet als een eend, zwemt als een eend en kwakt als een eend, dan is het waarschijnlijk een eend."

De robot probeert iets.
Hij krijgt een beloning.
Hij past zijn volgende poging aan op basis van die beloning.
Hij wordt steeds beter naarmate hij meer pogingen doet.

Dit gedrag is precies wat Versterkende Leerling (Reinforcement Learning) doet. De robot leert in-context (in de context van het gesprek) dat hij moet zoeken naar de weg die de hoogste score oplevert.

4. Creatieve Analogieën

De Chef-kok die proeft:
Stel je een chef-kok voor die een nieuw gerecht maakt. Normaal zou hij wachten tot de klant terugkomt om te horen of het lekker was. Maar in dit experiment krijgt de kok na elke hap een klein lichtje: groen (lekker) of rood (niet lekker). Na tien hapjes weet de kok precies welke ingrediënten hij moet aanpassen om het perfecte gerecht te maken, zonder dat iemand hem heeft verteld hoe hij moet koken. Hij heeft het zelf ontdekt door te kijken naar de lichten.
De Schrijver en de Criticus:
Een schrijver schrijft een verhaal. Een strenge criticus kijkt niet naar de tekst en schrijft geen lange brief met tips. De criticus geeft alleen een cijfer: 1 tot 10. De schrijver leest zijn eigen verhaal, kijkt naar het cijfer, en schrijft de volgende versie. Na een paar rondes schrijft hij een meesterwerk, puur omdat hij probeerde om die cijfers omhoog te krijgen.

5. Waarom is dit belangrijk?

Vroeger dachten we dat AI alleen kon leren tijdens de training (in de fabriek). Dit onderzoek toont aan dat AI ook kan leren tijdens het gebruik (in de winkel).

Beter dan oude methoden: Andere methoden (zoals "Reflexion") laten de AI zichzelf lange teksten schrijven over wat ze verkeerd deden. Dat werkt vaak slecht omdat de AI in de war raakt of hallucineert.
Simpel is beter: Door alleen een getal (de beloning) te geven, werkt het veel beter. De AI hoeft niet te praten over fouten; hij hoeft alleen maar te voelen wat goed werkt.

Conclusie

De titel "Reward is Enough" (Beloning is genoeg) vat het perfect samen. Je hoeft geen ingewikkelde instructies of menselijke hulp te geven. Als je een AI alleen maar laat zien of hij een goed of slecht cijfer krijgt, en je herhaalt dit een paar keer, begint hij vanzelf slimme strategieën te ontwikkelen om die cijfers te maximaliseren.

Het is alsof je een kind een doos Legoblokjes geeft en zegt: "Bouw iets wat hoog is." Als je het kind elke keer een duimpje omhoog geeft als het stabiel is, en een duimpje omlaag als het omvalt, zal het kind vanzelf leren hoe het moet bouwen zonder dat je de regels van architectuur hoeft uit te leggen. De AI doet precies hetzelfde.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) moeten tijdens de inferentie (testtijd) in staat zijn om te leren en zich aan te passen aan nieuwe taken, een concept dat bekendstaat als "test-time scaling". Bestaande methoden voor zelfverbetering tijdens de inferentie vertrouwen voornamelijk op twee benaderingen:

Zoeken (Search): Methoden zoals Tree of Thoughts of Best-of-N genereren meerdere antwoorden en selecteren het beste. Dit is echter computationally duur en levert geen fundamenteel "leren" op.
Supervised In-Context Learning (ICL): Dit vereist expert-demonstraties (ground-truth labels), die tijdens de inferentie vaak niet schaalbaar beschikbaar zijn.

Er is een lacune in het vermogen van LLMs om te leren van hun eigen gegenereerde ervaringen zonder menselijke tussenkomst of dure hertraining. Hoewel Reinforcement Learning (RL) een krachtig kader is voor zelfverbetering, is het nog niet duidelijk of dit vermogen kan emerge (ontstaan) tijdens de inferentie van een LLM, zonder dat de modelparameters worden bijgewerkt.

Methodologie: ICRL Prompting

De auteurs introduceren ICRL Prompting (In-Context Reinforcement Learning), een minimalistisch raamwerk dat LLMs aanmoedigt om RL te simuleren tijdens de inferentie. Het kernprincipe is dat de LLM alleen leert van scalarsche beloningen (rewards), zonder tekstuele feedback of extra geengineerde modules.

Het proces verloopt als volgt:

Setup: Een taakbeschrijving ( $s_{task}$ ) en instructies ( $s_{ICRL}$ ) worden samengevoegd met een contextbuffer ( $B$ ) die eerdere pogingen bevat.
Actie: De LLM genereert een antwoord (actie).
Beloning: Na elke reactie ontvangt het model een numerieke, scalare feedback (reward) van een reward-functie $r$ . Deze kan afkomstig zijn van een regelgebaseerd systeem, een apart model, of de LLM zelf (self-evaluation).
Context-uitbreiding: In de volgende ronde wordt de prompt verrijkt met alle eerdere actie-reward paren ( $A_t, R_t$ ) uit de buffer.
Iteratie: Het model gebruikt deze groeiende context om zijn volgende antwoord te optimaliseren, met als doel de cumulatieve beloning te maximaliseren.

Ontwerpprincipes:

Minimalisme: Er worden geen tekstuele gradients, prioritering van ervaringen of extra heuristieken gebruikt. Alleen de scalare reward en instructies voor "exploratie" (probeer iets nieuws) of "exploitatie" (verbeter het beste eerdere resultaat) worden gegeven.
In-Context Policy: De modelparameters ( $\theta$ ) blijven onveranderd. De verbetering komt puur voort uit de groeiende context $C_t$ , wat het model in staat stelt om een RL-algoritme te simuleren via de forward pass.

Belangrijkste Bijdragen

Het ICRL Framework: Een nieuw prompting-raamwerk dat LLMs in staat stelt om RL te vertonen tijdens de inferentie, puur op basis van scalare beloningen. Dit isoleert het inherente vermogen van LLMs om te leren uit ervaring.
Aanwijzingen voor Emergent RL: De auteurs leveren sterke empirische bewijzen dat RL-emergentie plaatsvindt, gebaseerd op:
- Maximalisatie van de scalare reward.
- Een afweging tussen exploratie en exploitatie.
- Prestatieverbetering naarmate de context groeit.
- Prestatieverlies bij het wegnemen van de reward of het verkorten van de context.
Superieure Prestaties: ICRL overtreft bestaande zelfherzieningsmethoden (zoals Self-Refine en Reflexion) aanzienlijk op diverse benchmarks, zelfs wanneer de reward-signalen door dezelfde LLM worden gegenereerd.

Resultaten

Het framework werd geëvalueerd op vier verschillende benchmarks:

Game of 24: Een wiskundig puzzelspel.
- Resultaat: ICRL (Preset) bereikte een 90% succesrate na 50 pogingen, vergeleken met 49% voor Best-of-N en 47% voor Self-Refine. Het model leerde effectief van zijn fouten zonder toegang tot de "ground truth" reward, maar alleen via een geschatte reward van dezelfde LLM.
Creatief Schrijven: Het genereren van coherente verhalen.
- Resultaat: ICRL behaalde een 59,48% win-rate tegenover Reflexion en 93,81% tegenover Best-of-N volgens Alpaca-Eval 2.0. Het model verbeterde continu in coherentie, terwijl Self-Refine na verloop van tijd stagneerde of achteruitging.
ScienceWorld: Interactieve tekstuele wetenschappelijke experimenten.
- Resultaat: ICRL toonde een stabiele verbetering in de return (tot ~88) en overtrof baselines met ongeveer 20%. Het bleek schaalbaar te zijn in termen van testtijd-berekeningsbudget.
Olympiade Wiskunde (AIME & HMMT):
- Resultaat: ICRL presteerde consistent beter dan Self-Refine en Reflexion op open-source modellen (zoals Qwen3 en Llama-4), met verbeteringen van 10-20 punten op de basisprestaties.

Ablatie Studies:

Zonder reward-signalen of met een te korte context (alleen de laatste 3 pogingen) daalden de prestaties aanzienlijk.
"Exploratie alleen" zonder reward presteerde slechter dan de volledige ICRL-methode, wat aantoont dat het niet gaat om simpelweg het kiezen van het beste eerdere antwoord, maar om het genereren van nieuwe, betere antwoorden door te leren van de reward.

Mechanistische Analyse:
Een analyse van de attention-heads in Qwen3-32B toonde aan dat ongeveer 29% van de attention-heads statistisch significant correleert met de reward-signalen. Sommige heads focussen op succesvolle (hoge reward) voorbeelden, terwijl andere focussen op mislukkingen (lage reward), wat overeenkomt met klassiek RL-leren.

Betekenis en Conclusie

Dit paper introduceert een paradigmaverschuiving in het denken over test-time scaling. Het bewijst dat Reinforcement Learning een emergent vermogen is van grote taalmodellen tijdens de inferentie.

Onafhankelijkheid van menselijke kennis: LLMs kunnen zichzelf verbeteren door alleen te kijken naar een scalare "score", zonder dat ze menselijke demonstraties of complexe tekstuele feedback nodig hebben.
Efficiëntie: Het is een kosteneffectieve manier om test-time compute te benutten, omdat het geen dure hertraining vereist.
Toekomstperspectief: Dit opent de weg naar autonome agenten die in open-ended omgevingen kunnen leren, zich aanpassen en zichzelf verbeteren door te experimenteren en te leren van de consequenties van hun eigen acties, puur gebaseerd op het maximaliseren van een beloningssignaal.

De conclusie is krachtig: "Reward is Enough". Zelfs zonder menselijke input of parameter-updates, kunnen LLMs effectief Reinforcement Learning uitvoeren binnen hun contextvenster.