Reward Is Enough: LLMs Are In-Context Reinforcement Learners

Dit paper toont aan dat grote taalmodellen tijdens de inferentie in staat zijn tot in-context versterkende leer (ICRL) door via een meerrondige prompting-methode met numerieke beloningssignalen hun prestaties te verbeteren op diverse complexe taken.

Kefan Song, Amir Moeini, Peng Wang, Lei Gong, Rohan Chandra, Shangtong Zhang, Yanjun Qi

Gepubliceerd 2026-03-26
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De Slimme Leraar die Zichzelf Leerde van zijn Eigen Fouten

Stel je voor dat je een zeer intelligente, maar nogal stijve robot hebt. Deze robot is een enorme bibliotheek van kennis (een "Large Language Model" of LLM). Hij kan alles vertellen wat hij in zijn training heeft gelezen, maar als je hem een nieuw, moeilijk probleem geeft, blijft hij vaak vastlopen. Hij weet niet hoe hij moet leren terwijl hij werkt; hij kan alleen maar herinneren.

Dit nieuwe onderzoek, getiteld "Reward is Enough: LLMs are In-Context Reinforcement Learners", ontdekt iets verrassends: deze robots kunnen plotseling leren terwijl ze antwoorden geven, zolang ze maar een simpele manier krijgen om te weten of ze het goed of fout hebben.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Robot die niet durft te experimenteren

Normaal gesproken moet je een robot maandenlang trainen met duizenden voorbeelden om hem slim te maken. Als hij een fout maakt, moet je hem opnieuw trainen. Dat is duur en traag.
In de echte wereld willen we echter dat een robot (of AI) direct kan leren van zijn eigen ervaringen, net zoals een kind dat leert lopen door te vallen en weer op te staan.

2. De Oplossing: De "Scorekaart" (De Beloning)

De onderzoekers hebben een simpele truc bedacht, genaamd ICRL Prompting.
Stel je voor dat je de robot een puzzel geeft (bijvoorbeeld: "Hoe maak je 24 met de getallen 4, 6, 8 en 8?").

  1. Probeer 1: De robot geeft een antwoord.
  2. De Score: In plaats van een lange tekstuele uitleg te geven ("Je hebt dit verkeerd, probeer dat anders"), krijgt de robot alleen een cijfer (een beloning).
    • Goed antwoord? Cijfer 10.
    • Fout antwoord? Cijfer 0.
  3. De Herhaling: De robot krijgt nu zijn eigen antwoord én het cijfer terug in zijn geheugen. Vervolgens vraagt de onderzoekers: "Probeer het nog eens, maar let op je vorige score."
  4. De Cyclus: Dit gaat door. De robot ziet een lijstje met: Antwoord A (Score 2), Antwoord B (Score 8), Antwoord C (Score 10).

3. De Magie: Het "Duck Test" (Is het een eend?)

Het meest fascinerende is dat de robot geen zware hersenoperatie nodig heeft om dit te doen. Hij hoeft niet opnieuw getraind te worden.
De onderzoekers zeggen: "Als het eruit ziet als een eend, zwemt als een eend en kwakt als een eend, dan is het waarschijnlijk een eend."

  • De robot probeert iets.
  • Hij krijgt een beloning.
  • Hij past zijn volgende poging aan op basis van die beloning.
  • Hij wordt steeds beter naarmate hij meer pogingen doet.

Dit gedrag is precies wat Versterkende Leerling (Reinforcement Learning) doet. De robot leert in-context (in de context van het gesprek) dat hij moet zoeken naar de weg die de hoogste score oplevert.

4. Creatieve Analogieën

  • De Chef-kok die proeft:
    Stel je een chef-kok voor die een nieuw gerecht maakt. Normaal zou hij wachten tot de klant terugkomt om te horen of het lekker was. Maar in dit experiment krijgt de kok na elke hap een klein lichtje: groen (lekker) of rood (niet lekker). Na tien hapjes weet de kok precies welke ingrediënten hij moet aanpassen om het perfecte gerecht te maken, zonder dat iemand hem heeft verteld hoe hij moet koken. Hij heeft het zelf ontdekt door te kijken naar de lichten.

  • De Schrijver en de Criticus:
    Een schrijver schrijft een verhaal. Een strenge criticus kijkt niet naar de tekst en schrijft geen lange brief met tips. De criticus geeft alleen een cijfer: 1 tot 10. De schrijver leest zijn eigen verhaal, kijkt naar het cijfer, en schrijft de volgende versie. Na een paar rondes schrijft hij een meesterwerk, puur omdat hij probeerde om die cijfers omhoog te krijgen.

5. Waarom is dit belangrijk?

Vroeger dachten we dat AI alleen kon leren tijdens de training (in de fabriek). Dit onderzoek toont aan dat AI ook kan leren tijdens het gebruik (in de winkel).

  • Beter dan oude methoden: Andere methoden (zoals "Reflexion") laten de AI zichzelf lange teksten schrijven over wat ze verkeerd deden. Dat werkt vaak slecht omdat de AI in de war raakt of hallucineert.
  • Simpel is beter: Door alleen een getal (de beloning) te geven, werkt het veel beter. De AI hoeft niet te praten over fouten; hij hoeft alleen maar te voelen wat goed werkt.

Conclusie

De titel "Reward is Enough" (Beloning is genoeg) vat het perfect samen. Je hoeft geen ingewikkelde instructies of menselijke hulp te geven. Als je een AI alleen maar laat zien of hij een goed of slecht cijfer krijgt, en je herhaalt dit een paar keer, begint hij vanzelf slimme strategieën te ontwikkelen om die cijfers te maximaliseren.

Het is alsof je een kind een doos Legoblokjes geeft en zegt: "Bouw iets wat hoog is." Als je het kind elke keer een duimpje omhoog geeft als het stabiel is, en een duimpje omlaag als het omvalt, zal het kind vanzelf leren hoe het moet bouwen zonder dat je de regels van architectuur hoeft uit te leggen. De AI doet precies hetzelfde.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →