Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, slimme leerling hebt die graag wiskundepuzzels oplost of softwareprogrammeert. Je wilt dat deze leerling complexe problemen kan oplossen, maar er zijn twee grote struikelblokken:

De "Kijk-en-naboots"-methode (SFT): Je geeft de leerling het perfecte antwoord van een meester en zegt: "Kijk goed en schrijf dit exact na." Het probleem? De leerling wordt een robot. Hij leert niet hoe hij moet denken, maar alleen wat hij moet zeggen. Als de vraag net iets anders is dan wat hij heeft geoefend, raakt hij in de war en faalt hij. Hij heeft het antwoord uit zijn hoofd geleerd, niet het proces.
De "Gok-en-Straf"-methode (RL): Je laat de leerling zelf proberen. Als hij het juiste antwoord heeft, krijgt hij een sterretje (beloning). Als hij het fout heeft, krijgt hij een duwtje in de rug (straf). Het probleem is: bij heel moeilijke puzzels raakt de leerling zo vaak vast dat hij nooit een sterretje verdient. Hij krijgt alleen maar negatieve feedback en stopt met proberen. Hij leert niets omdat hij nooit succes ervaart.

De Oplossing: "Supervised Reinforcement Learning" (SRL)

De auteurs van dit paper hebben een nieuwe methode bedacht, die we SRL noemen. Ze noemen het een combinatie van de beste kanten van beide werelden.

De Analogie: De Bouwmeester en de Meester-Bouwer

Stel je voor dat je een jonge bouwmeester (het AI-model) wilt leren een ingewikkeld kasteel te bouwen.

Bij de oude methoden:
- Ofwel geef je hem de blauwdruk van het hele kasteel en zeg je: "Bouw dit exact na." (SFT). Hij bouwt het na, maar als er een steen ontbreekt, weet hij niet hoe hij die moet vervangen.
- Ofwel laat je hem 100 keer proberen het kasteel te bouwen zonder hulp. Als hij het kasteel niet helemaal afmaakt, zegt je: "Fout, probeer het opnieuw." Omdat het kasteel zo moeilijk is, lukt het hem nooit. Hij raakt gefrustreerd en stopt.
Hoe SRL werkt (De Stap-voor-Stap Coach):
SRL kijkt naar de blauwdruk van de meester en breekt het bouwwerk op in kleine, logische stappen (acties).
1. De leerling krijgt een opdracht: "Bouw nu de eerste muur."
2. Voordat hij de muur bouwt, mag hij eerst hardop nadenken (een "inner monologue"). Hij zegt: "Oké, ik moet eerst de fundering controleren, dan de bakstenen kiezen..."
3. Dan voert hij de actie uit (de muur bouwen).
4. De coach (het systeem) kijkt niet naar het hele kasteel, maar alleen naar die ene muur. Vraagt hij zich af: "Lijkt deze muur op de muur die de meester zou hebben gebouwd?"
  - Als het lijkt, krijgt de leerling een positieve feedback (een glimlach of een punt), zelfs als het hele kasteel nog niet af is.
  - Als het niet lijkt, krijgt hij een kleine correctie, maar geen totale straf.

Waarom is dit zo slim?

Veel meer feedback: In plaats van te wachten tot het hele kasteel klaar is (wat misschien nooit gebeurt), krijgt de leerling na elke muur feedback. Hij leert continu.
Vrijheid om te denken: De leerling mag zijn eigen gedachten hebben (de "inner monologue"). Hij hoeft niet exact dezelfde woorden te gebruiken als de meester, zolang de actie (de muur) maar goed is. Dit maakt hem flexibeler.
Werkt ook bij moeilijke dingen: Zelfs als de leerling het hele probleem niet oplost, leert hij wel hoe hij de eerste stap goed moet zetten. Dat is al een enorme winst.

Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op twee gebieden:

Wiskunde: Ze lieten kleine computermodellen moeilijke wiskundeproblemen oplossen. De SRL-modellen werden veel beter dan de modellen die alleen maar nabootsten of alleen maar gokten. Ze leerden zelfs om tussendoor te controleren of hun redenering klopte (zoals een mens die zegt: "Wacht, laat me dit nog eens checken").
Software (Programmeren): Ze leerden een AI om bugs in computercode te repareren. Ook hier was SRL superieur. De AI leerde niet alleen de code te kopiëren, maar leerde hoe je een probleem stap voor stap oplost.

Conclusie

SRL is als een super-coach die een leerling niet alleen het eindantwoord geeft, maar hem ook leert hoe hij moet denken en handelen bij elke kleine stap. Het combineert het voordeel van het hebben van een goed voorbeeld (de meester) met de kracht van het zelf leren door te doen, maar dan zonder de frustratie van het nooit winnen. Hierdoor kunnen zelfs kleine, minder krachtige AI-modellen nu problemen oplossen die voorheen onmogelijk leken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Supervised Reinforcement Learning (SRL): Van Expert Trajecten naar Stap-voor-Stap Redeneren

Auteurs: Yihe Deng, I-Hung Hsu, Jun Yan, et al. (Google Cloud AI Research, UCLA).

1. Het Probleem

Grote Taalmodellen (LLMs) worstelen vaak met problemen die complexe, meerstapsredenering vereisen. Bestaande trainingsmethodes hebben beperkingen bij het oplossen van deze uitdagingen, vooral voor kleinere open-source modellen:

Supervised Fine-Tuning (SFT): SFT leert door imitatie van expert-trajecten (token-voor-token). Dit leidt vaak tot overfitting op lange demonstraties en starre, oppervlakkige redeneergedragingen. Modellen leren de tekst te kopiëren in plaats van de onderliggende logica te begrijpen, wat resulteert in prestatieverlies op moeilijke taken.
Reinforcement Learning met Verifieerbare Beloningen (RLVR): RLVR optimaliseert modellen op basis van de juistheid van het eindantwoord. Bij zeer moeilijke problemen is de kans dat het model een correcte oplossing genereert (pass@k) echter nihil. Zelfs na vele pogingen blijven alle rollouts fout, waardoor er geen positieve beloningssignalen zijn. Dit maakt het leren onmogelijk of instabiel, omdat fouten in een tussenstap de hele redeneerketen kunnen vernietigen zonder dat het model nuttige feedback krijgt.

Er is een kritiek gat in de methodologie voor het trainen van kleine modellen op moeilijke, meerstapsredeneringsproblemen.

2. Methodologie: Supervised Reinforcement Learning (SRL)

De auteurs introduceren Supervised Reinforcement Learning (SRL), een raamwerk dat probleemoplossing herformuleert als een sequentieel besluitvormingsproces. In plaats van te streven naar het eindantwoord of een heel traject na te bootsen, leert SRL het model om een reeks logische "acties" te genereren, ondersteund door een interne redeneermonoloog.

Kerncomponenten van SRL:

Decompositie in Acties:
Expert-oplossingen worden opgesplitst in een reeks tussenstappen (acties). Elke stap vertegenwoordigt een betekenisvolle beslissing (bijv. een algebraïsche manipulatie in wiskunde of een bash-commando in software-engineering).
Trainingsdata Constructie:
Uit één complete expert-oplossing met $N$ stappen worden $N-1$ trainingsinstanties gegenereerd. Voor elke stap $k$ wordt de context gevormd door de vraag en alle voorgaande stappen. Het model moet vervolgens de volgende stap voorspellen.
Interne Monoloog en Actie:
Het model wordt geprompt om eerst een interne redenering te genereren (binnen <thought> tags) en vervolgens de daadwerkelijke actie (de stap) te commiten. Dit biedt flexibiliteit in hoe het model redeneert, terwijl de externe actie gestructureerd blijft.
Dichte Beloningsfunctie (Sequence Similarity Reward):
In tegenstelling tot RLVR (die alleen kijkt naar het eindantwoord), berekent SRL een beloning op basis van de gelijkenis tussen de gegenereerde actie en de expert-actie.
- De beloning $R$ wordt berekend met een sequentie-gelijkheidsmeting (gebaseerd op difflib.SequenceMatcher in Python).
- $R = \frac{2M}{T}$ , waarbij $M$ het aantal overeenkomende elementen is en $T$ de totale lengte van beide sequenties.
- Dit levert een dicht beloningssignaal op (waarden tussen 0 en 1), zelfs als de uiteindelijke oplossing incorrect is. Het model krijgt feedback op elke stap, wat het leerproces stabiliseert.
Dynamische Sampling:
Om de leerkracht te maximaliseren, worden samples gefilterd die geen betekenisvolle updates bieden (bijv. als de variantie in beloningen over meerdere rollouts te laag is). Dit zorgt ervoor dat het model alleen traint op data waar het daadwerkelijk kan leren.
Training Pipeline:
SRL wordt vaak gebruikt als een initiatie-fase, gevolgd door RLVR. Eerst leert het model via SRL hoe het probleem stap-voor-stap aan te pakken, waarna RLVR de prestaties verder verfijnt op basis van het eindresultaat.

3. Belangrijkste Bijdragen

Nieuw Framework (SRL): Een methode die imitatielearning en reinforcement learning combineert door dichte, stap-voor-stap beloningen te geven op basis van expert-acties, in plaats van alleen op het eindantwoord.
Overcoming Hard Problems: SRL maakt het mogelijk om kleine modellen (bijv. 7B parameters) te trainen op problemen die te moeilijk zijn voor standaard SFT of RLVR.
Flexibele Redenering: Het model ontwikkelt geavanceerde redeneerpatronen, zoals het afwisselen van planning en verificatie ("interleaved reasoning"), in plaats van starre imitatie.
Generalisatie: Het framework is niet beperkt tot wiskunde, maar werkt ook effectief voor agentische taken in software-engineering.

4. Resultaten

De auteurs hebben hun methode getest op wiskundige redenering (AMC23, AIME24, AIME25, Minerva) en software-engineering (SWE-Bench).

Wiskundige Redenering (Qwen2.5-7B):

SFT: Directe SFT op de moeilijke dataset leidde tot een prestatiedaling ten opzichte van het basismodel (overfitting).
RLVR: Toonde lichte verbeteringen, maar bleef beperkt door het gebrek aan succesvolle rollouts.
SRL: Boekte een aanzienlijke verbetering (+3,0% gemiddeld) ten opzichte van RLVR.
SRL $\rightarrow$ RLVR: De combinatie van SRL gevolgd door RLVR leverde de hoogste prestaties op, met een gemiddelde stijging van +3,7% ten opzichte van RLVR alleen. SRL slaagde erin om de "barrière" van moeilijke data te doorbreken waar andere methoden faalden.

Software Engineering (SWE-Bench):

Op de SWE-Bench-Verified benchmark overtrof SRL (gebaseerd op Qwen2.5-Coder-7B) zowel het basismodel als een sterke SFT-baseline (SWE-Gym-7B).
In de "Oracle" setting (waar het model de juiste bestanden krijgt) bereikte SRL een 14,8% resolutie, wat een relatieve verbetering van 74% is ten opzichte van SWE-Gym-7B.
In de "End-to-End" setting (waar het model ook bestanden moet lokaliseren) verdubbelde SRL de prestaties van de baseline.

5. Significantie en Conclusie

Dit paper introduceert een paradigmaverschuiving in het trainen van redenerende LLMs.

Oplossing voor het "Zero-Reward" Probleem: SRL lost het fundamentele probleem op van RLVR bij moeilijke taken, waar geen enkel correct antwoord wordt gevonden, door dichte feedback te geven op tussenstappen.
Efficiëntie: Het maakt effectief leren mogelijk met beperkte datasets (bijv. 1.000 voorbeelden), wat cruciaal is voor open-source modellen.
Robuustheid: De methode bevordert niet alleen nauwkeurigheid, maar ook de kwaliteit van het redeneerproces (flexibiliteit, zelfverificatie).

Concluderend biedt SRL een robuust en veelzijdig raamwerk om AI-agenten te trainen op complexe, meerstapsproblemen, en vult het de kloof tussen imitatielearning en reinforcement learning.

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Titel: Supervised Reinforcement Learning (SRL): Van Expert Trajecten naar Stap-voor-Stap Redeneren

1. Het Probleem

2. Methodologie: Supervised Reinforcement Learning (SRL)

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá