In-Context Reinforcement Learning for Tool Use in Large Language Models

Deze paper introduceert In-Context Reinforcement Learning (ICRL), een schaalbaar en data-efficiënt framework dat grote taalmodellen zonder voorafgaande gesuperviseerde fijne afstemming (SFT) leert externe hulpmiddelen effectief te gebruiken door tijdens het trainingsproces geleidelijk van few-shot naar zero-shot prompting over te schakelen.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hoe je een slimme robot leert werken met gereedschap, zonder hem eerst jarenlang te laten studeren

Stel je voor dat je een zeer slimme, maar soms wat verouderde bibliothecaris hebt. Deze bibliothecaris (het AI-model) kent de wereld uit zijn hoofd, maar hij heeft een groot probleem: zijn kennis is vastgevroren op het moment dat hij werd geboren. Hij weet niet wat er gisteren in het nieuws was, en hij kan geen complexe wiskundige sommen snel uitrekenen zonder fouten te maken.

Om dit op te lossen, willen we hem leren werken met gereedschap: zoals een zoekmachine voor actuele feiten of een rekenmachine voor wiskunde. Maar hoe leer je een robot dit?

Het oude probleem: De dure "studeerperiode"

Tot nu toe was de enige manier om een robot dit te leren als volgt:

  1. De dure studie: Je geeft de robot duizenden voorbeelden van vragen en het juiste antwoord, inclusief precies hoe hij de zoekmachine moet gebruiken. Dit noemen ze Supervised Fine-Tuning (SFT). Het is alsof je de bibliothecaris maandenlang laat studeren met een dure leraar die elke stap uitlegt. Dit kost enorm veel tijd, geld en menselijke inspanning.
  2. De oefensessie: Daarna laat je hem oefenen met beloningen (reinforcement learning) om het nog beter te doen.

De auteurs van dit paper zeggen: "Waarom die dure studieperiode? Kunnen we het niet anders doen?"

De nieuwe oplossing: ICRL (In-Context Reinforcement Learning)

Deze paper introduceert een slimme nieuwe methode genaamd ICRL. Het idee is zo simpel als het is geniaal.

De analogie van de "Leerling op het werk"
In plaats van de robot eerst jaren te laten studeren met een leraar, zetten we hem direct aan het werk, maar we geven hem een voorbeeldboekje bij de hand.

  1. De start (Met voorbeelden):
    Aan het begin van de training krijgt de robot een vraag, en direct daarvoor zetten we een paar voorbeelden van hoe een slimme robot zo'n vraag zou aanpakken.

    • Voorbeeld: "Hier is hoe je een vraag beantwoordt: eerst denk je na, dan zoek je iets op, en dan geef je het antwoord."
      De robot kijkt naar deze voorbeelden (dit noemen ze few-shot prompting) en probeert het na te bootsen. Hij krijgt direct een beloning als hij het goed doet. Hij leert dus door te kijken en te doen, niet door te studeren.
  2. Het afbouwen (De "krachttraining"):
    Dit is het meest creatieve deel. Naarmate de robot beter wordt, halen we langzaam de voorbeelden uit zijn boekje weg.

    • Eerst heeft hij 3 voorbeelden nodig.
    • Dan 2 voorbeelden.
    • Dan 1 voorbeeld.
    • En uiteindelijk heeft hij geen voorbeelden meer nodig.

Het is alsof je een kind leert fietsen. Eerst lopen jullie samen (met voorbeelden), dan loop je naast de fiets (minder voorbeelden), en uiteindelijk laat je het kind alleen fietsen (geen voorbeelden). De robot leert zo langzaam de vaardigheid "uit zijn hoofd" te internaliseren, zonder dat hij ooit een dure studieperiode heeft gehad.

Waarom is dit zo geweldig?

  • Het bespaart geld en tijd: Je hoeft geen duizenden mensen te betalen om voorbeelden te schrijven. De robot leert zichzelf door te kijken naar een paar voorbeelden in de prompt.
  • Het werkt beter: De resultaten in het paper tonen aan dat deze methode de robot zelfs slimmer maakt dan de methoden die wel die dure studieperiode hebben gehad. De robot wordt beter in complexe vragen (zoals "Wie was de president die het twee-termijnbeleid introduceerde en wanneer begon hij?") omdat hij leert om zelfstandig te zoeken en te redeneren.
  • Het is flexibel: Of het nu gaat om zoeken op het internet of het schrijven van computercode voor wiskundeproblemen, deze methode werkt overal.

Samenvattend

Stel je voor dat je in plaats van een student te laten studeren voor een examen, hem gewoon op een stage zet met een handboekje. Naarmate hij meer ervaring opdoet, haal je het handboekje weg. Uiteindelijk is hij een meester zonder dat hij ooit een dure universiteit heeft bezocht.

Dat is wat ICRL doet: het leert AI-modellen om slimme gereedschappen te gebruiken door ze direct te laten oefenen met een paar voorbeelden, en ze dan stap voor stap los te laten. Het is sneller, goedkoper en blijkt zelfs slimmer te zijn dan de oude, traditionele methoden.