Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Dit paper introduceert Supervised Reinforcement Learning (SRL), een kader dat kleine taalmodellen in staat stelt om complexe meerstapsredeneringen en agentieke taken te leren door middel van stapsgewijze imitatie van expertacties, waardoor het de beperkingen van zowel Supervised Fine-Tuning als Reinforcement Learning met Verifieerbare Beloningen overwint.

Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, slimme leerling hebt die graag wiskundepuzzels oplost of softwareprogrammeert. Je wilt dat deze leerling complexe problemen kan oplossen, maar er zijn twee grote struikelblokken:

  1. De "Kijk-en-naboots"-methode (SFT): Je geeft de leerling het perfecte antwoord van een meester en zegt: "Kijk goed en schrijf dit exact na." Het probleem? De leerling wordt een robot. Hij leert niet hoe hij moet denken, maar alleen wat hij moet zeggen. Als de vraag net iets anders is dan wat hij heeft geoefend, raakt hij in de war en faalt hij. Hij heeft het antwoord uit zijn hoofd geleerd, niet het proces.
  2. De "Gok-en-Straf"-methode (RL): Je laat de leerling zelf proberen. Als hij het juiste antwoord heeft, krijgt hij een sterretje (beloning). Als hij het fout heeft, krijgt hij een duwtje in de rug (straf). Het probleem is: bij heel moeilijke puzzels raakt de leerling zo vaak vast dat hij nooit een sterretje verdient. Hij krijgt alleen maar negatieve feedback en stopt met proberen. Hij leert niets omdat hij nooit succes ervaart.

De Oplossing: "Supervised Reinforcement Learning" (SRL)

De auteurs van dit paper hebben een nieuwe methode bedacht, die we SRL noemen. Ze noemen het een combinatie van de beste kanten van beide werelden.

De Analogie: De Bouwmeester en de Meester-Bouwer

Stel je voor dat je een jonge bouwmeester (het AI-model) wilt leren een ingewikkeld kasteel te bouwen.

  • Bij de oude methoden:

    • Ofwel geef je hem de blauwdruk van het hele kasteel en zeg je: "Bouw dit exact na." (SFT). Hij bouwt het na, maar als er een steen ontbreekt, weet hij niet hoe hij die moet vervangen.
    • Ofwel laat je hem 100 keer proberen het kasteel te bouwen zonder hulp. Als hij het kasteel niet helemaal afmaakt, zegt je: "Fout, probeer het opnieuw." Omdat het kasteel zo moeilijk is, lukt het hem nooit. Hij raakt gefrustreerd en stopt.
  • Hoe SRL werkt (De Stap-voor-Stap Coach):
    SRL kijkt naar de blauwdruk van de meester en breekt het bouwwerk op in kleine, logische stappen (acties).

    1. De leerling krijgt een opdracht: "Bouw nu de eerste muur."
    2. Voordat hij de muur bouwt, mag hij eerst hardop nadenken (een "inner monologue"). Hij zegt: "Oké, ik moet eerst de fundering controleren, dan de bakstenen kiezen..."
    3. Dan voert hij de actie uit (de muur bouwen).
    4. De coach (het systeem) kijkt niet naar het hele kasteel, maar alleen naar die ene muur. Vraagt hij zich af: "Lijkt deze muur op de muur die de meester zou hebben gebouwd?"
      • Als het lijkt, krijgt de leerling een positieve feedback (een glimlach of een punt), zelfs als het hele kasteel nog niet af is.
      • Als het niet lijkt, krijgt hij een kleine correctie, maar geen totale straf.

Waarom is dit zo slim?

  • Veel meer feedback: In plaats van te wachten tot het hele kasteel klaar is (wat misschien nooit gebeurt), krijgt de leerling na elke muur feedback. Hij leert continu.
  • Vrijheid om te denken: De leerling mag zijn eigen gedachten hebben (de "inner monologue"). Hij hoeft niet exact dezelfde woorden te gebruiken als de meester, zolang de actie (de muur) maar goed is. Dit maakt hem flexibeler.
  • Werkt ook bij moeilijke dingen: Zelfs als de leerling het hele probleem niet oplost, leert hij wel hoe hij de eerste stap goed moet zetten. Dat is al een enorme winst.

Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op twee gebieden:

  1. Wiskunde: Ze lieten kleine computermodellen moeilijke wiskundeproblemen oplossen. De SRL-modellen werden veel beter dan de modellen die alleen maar nabootsten of alleen maar gokten. Ze leerden zelfs om tussendoor te controleren of hun redenering klopte (zoals een mens die zegt: "Wacht, laat me dit nog eens checken").
  2. Software (Programmeren): Ze leerden een AI om bugs in computercode te repareren. Ook hier was SRL superieur. De AI leerde niet alleen de code te kopiëren, maar leerde hoe je een probleem stap voor stap oplost.

Conclusie

SRL is als een super-coach die een leerling niet alleen het eindantwoord geeft, maar hem ook leert hoe hij moet denken en handelen bij elke kleine stap. Het combineert het voordeel van het hebben van een goed voorbeeld (de meester) met de kracht van het zelf leren door te doen, maar dan zonder de frustratie van het nooit winnen. Hierdoor kunnen zelfs kleine, minder krachtige AI-modellen nu problemen oplossen die voorheen onmogelijk leken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →