Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme student bent die wiskundeproblemen oplost. Meestal leer je op één van twee manieren:

De "Kopieer-en-plak" methode (SFT): Je kijkt naar het antwoord in het antwoordboekje en probeert het woord voor woord na te schrijven. Het probleem? Je leert niet echt hoe je erbij komt, je leert alleen de uitkomst. Als je een ander probleem krijgt, raak je in de war.
De "Probeer maar" methode (RL/GRPO): Je probeert het probleem op te lossen door gissen. Als je het goed hebt, krijg je een sterretje. Als je het fout hebt, krijg je niets. Het nadeel? Je moet duizenden keren gissen voordat je iets leert, en als je 8 keer gissen doet en ze zijn allemaal fout, leer je niets van die 8 pogingen. Het is duur en inefficiënt.

De auteurs van dit paper hebben een derde, slimme manier bedacht: OPSD (On-Policy Self-Distillation).

Het Concept: De "Twee Hoeden" Methode

Stel je voor dat je dezelfde persoon bent, maar je hebt twee verschillende hoeden op:

Hoed 1: De Leerling (Student). Deze hoed ziet alleen het vraagstuk. Hij moet het antwoord bedenken zonder hulp.
Hoed 2: De Meester (Teacher). Deze hoed ziet het vraagstuk én het juiste antwoord (of de volledige oplossing) al. Hij is dus "beter" omdat hij meer informatie heeft.

In de traditionele wereld heb je een echte meester (een grotere computer) nodig om de leerling te helpen. Maar OPSD zegt: "Wacht, we kunnen dezelfde computer gebruiken voor beide rollen!"

Hoe werkt het? (De Creatieve Analogie)

Stel je een situatie voor waarin je een lastig raadsel probeert op te lossen.

De Leerling probeert het: Je (als leerling) schrijft je eigen oplossing op. Misschien maak je een foutje halverwege, of misschien vind je een omweg.
De Meester kijkt mee: Nu trek je je "Meester-hoed" op. Je ziet wat de leerling heeft geschreven, MAAR je hebt ook het antwoordboekje bij je.
De "Zachte" Correctie: In plaats van te zeggen "Fout, begin opnieuw" (zoals bij het gissen), zegt de Meester: "Kijk, op stap 3 had je een andere richting kunnen kiezen. Kijk eens naar de kans dat ik op stap 3 een ander woord zou kiezen, omdat ik het antwoord al ken."

De computer (het model) leert dan niet door te straffen, maar door te kijken naar het verschil tussen wat de leerling dacht en wat de meester (met het antwoord) zou hebben gedaan.

Waarom is dit zo geweldig?

Geen externe meester nodig: Je hebt geen supercomputer nodig om een kleinere computer te trainen. De computer is zijn eigen leraar.
Elk woord telt: Bij de "Probeer maar" methode (RL) krijg je pas feedback als de hele zin klaar is. Bij OPSD krijg je feedback op elk woord dat je schrijft. Het is alsof je een leraar hebt die fluistert: "Nee, niet 'hond', denk eens aan 'kat'..." terwijl je nog aan het schrijven bent.
Veel sneller: Omdat je zo veel meer informatie krijgt per poging, hoef je niet duizenden keren te proberen. Het paper laat zien dat deze methode 8 tot 12 keer sneller is dan de beste bestaande methoden (zoals GRPO) om even goede resultaten te bereiken.

De Grootte van de "Student"

Er is één belangrijke regel: De computer moet al slim genoeg zijn om de oplossing te begrijpen.

Als je een heel klein, dom model neemt, kan het de "Meester" niet begrijpen, zelfs niet als het het antwoord ziet. Het is alsof je een peuter een universitair wiskundebestand laat lezen; hij ziet de letters, maar snapt de logica niet.
Maar zodra het model groot genoeg is (bijvoorbeeld 4 miljard of 8 miljard parameters), werkt het wonderbaarlijk goed. Het kan zichzelf "rationeel" maken: "Ah, ik zag dat het antwoord X was, dus waarom heb ik Y gekozen? Volgende keer kies ik X."

Samenvattend

OPSD is als een student die na het maken van een fout in zijn huiswerk, het antwoordboekje pakt, de oplossing bestudeert, en dan zegt: "Oké, ik snap nu waar ik het mis had. Ik ga mijn eigen denken herschrijven zodat het meer lijkt op wat ik nu weet."

Het is een manier om AI's te laten leren van hun eigen fouten, met de hulp van hun eigen "toekomstige zelf" dat het antwoord al kent, zonder dat er een dure, externe leraar nodig is. Dit maakt het trainen van slimme AI's veel goedkoper en sneller.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "On-Policy Self-Distillation for Large Language Models" (OPSD) in het Nederlands.

1. Het Probleem

Grote Taalmodellen (LLMs) presteren goed in redeneringstaken, maar het trainen ervan vereist vaak complexe methoden met beperkingen:

Reinforcement Learning with Verifiable Rewards (RLVR): Methoden zoals GRPO (Group Relative Policy Optimization) zijn effectief maar inefficiënt. Ze vereisen het genereren van meerdere antwoorden per prompt (bijv. 8 rollouts), wat rekenkracht kost. Bovendien is het beloningssignaal vaak spaars (alleen op sequentieniveau, niet per token) en verdwijnt het gradiëntsignaal als alle gegenereerde antwoorden ofwel allemaal correct of allemaal incorrect zijn.
Traditionele Knowledge Distillation: Hierbij wordt een kleiner 'student'-model getraind om het gedrag van een groter 'leraar'-model na te bootsen. Dit vereist echter een aparte, vaak duurdere leraar en werkt vaak met off-policy data (de student leert op data die niet door de huidige policy is gegenereerd), wat leidt tot distributiemismatch.
Supervised Fine-Tuning (SFT): Lijdt onder "exposure bias", waarbij het model fouten cumuleert omdat het tijdens training alleen op experttrajecten leert, maar tijdens inferentie op zijn eigen (mogelijk foutieve) voorspellingen.

Er is een behoefte aan een methode die on-policy training combineert met dichte token-level supervisie, zonder afhankelijk te zijn van een externe leraar of een spaarzaam beloningssignaal.

2. Methodologie: On-Policy Self-Distillation (OPSD)

De auteurs introduceren OPSD, een raamwerk waarbij één enkel model fungeert als zowel leraar als student, gebruikmakend van "geprivilegieerde informatie" (de grondwaarheid of referentie-oplossing).

Kernconcepten:

Single Model Dual Role: Het model $p_\theta$ $p_{θ}$ wordt geïnstancierd als twee beleidsstrategieën met dezelfde parameters, maar verschillende contexten:
- Student Policy ( $p_S$ ): Kijkt alleen naar het probleem $x$ en genereert een antwoord $\hat{y}$ .
- Leraar Policy ( $p_T$ ): Kijkt naar het probleem $x$ én de grondwaarheid/oplossing $y^\star$ (geprivilegieerde informatie). De leraar gebruikt deze informatie om een "rationele" verdeling van het volgende token te genereren, alsof het de oplossing begrijpt.
On-Policy Sampling: De student genereert zijn eigen trajecten $\hat{y} \sim p_S(\cdot | x)$ .
Dichte Supervisie: Voor elk gegenereerd token in de student's traject, wordt de kansverdeling van de leraar (geconditioneerd op $x, y^\star$ ) vergeleken met die van de student (geconditioneerd op $x$ ).
Leerdoel (Loss Function): Het doel is om de divergentie (bijv. Jensen-Shannon Divergentie of KL-divergentie) tussen de leraar- en student-distributies te minimaliseren over de hele vocabulaire voor elk token in de student's rollout.
$\mathcal{L}_{OPSD}(\theta) = \mathbb{E}_{(x,y^\star) \sim S} \mathbb{E}_{\hat{y} \sim p_S(\cdot|x)} \left[ \sum_{n=1}^{|\hat{y}|} D\left( p_T(\cdot | x, y^\star, \hat{y}_{<n}) \parallel p_S(\cdot | x, \hat{y}_{<n}) \right) \right]$
Belangrijk: Gradiënten worden alleen teruggepropageerd via de student-logits; de leraar fungeert als een vast doelwit.

Vergelijking met bestaande methoden:
In tegenstelling tot STaR (Self-Taught Reasoner), dat alleen correcte trajecten selecteert voor SFT (sequenti-level beloning), biedt OPSD token-level feedback voor elk gegenereerd woord, ongeacht of het uiteindelijke antwoord correct is. Dit maakt het een vorm van "dense-reward policy gradient".

3. Belangrijkste Bijdragen

Nieuw Raamwerk: OPSD introduceert een methode waarbij een model zichzelf onderwijst door gebruik te maken van grondwaarheid als context voor de "leraar", zonder externe modellen.
Efficiëntie: De methode bereikt prestaties die vergelijkbaar zijn met of beter zijn dan GRPO, maar met een 8 tot 12 keer hogere token-efficiëntie. Dit komt omdat OPSD slechts één rollout per prompt nodig heeft (tegenover 8 voor GRPO) en geen lange generatiebudgetten vereist voor het verzamelen van beloningen.
Prestaties: OPSD presteert beter dan standaard SFT en off-policy distillatie op wiskundige redeneringsbenchmarks.
Schalingsanalyse: De auteurs tonen aan dat succesvolle self-distillation afhankelijk is van voldoende modelcapaciteit; kleinere modellen (1.7B) presteerden minder goed dan grotere modellen (4B, 8B), wat suggereert dat het model de grondwaarheid moet kunnen "rationaliseren" om zichzelf te onderwijzen.

4. Experimentele Resultaten

De methode werd getest op de Qwen3-familie (1.7B, 4B, 8B parameters) met datasets zoals OpenThoughts en geëvalueerd op benchmarks zoals AIME 2024/2025, HMMT 2025 en AMO-Bench.

Prestaties:
- Op de Qwen3-8B en Qwen3-4B modellen overtrof OPSD zowel SFT als GRPO in gemiddelde nauwkeurigheid.
- Op het Qwen3-1.7B model was de prestatie lager dan GRPO, wat bevestigt dat een bepaalde modelgrootte nodig is om de "leraar" rol effectief te vervullen.
Efficiëntie:
- Figuur 3 in het artikel toont aan dat OPSD met slechts 1024 gegenereerde tokens per prompt vergelijkbare prestaties bereikt als GRPO, dat 16.384 tokens gebruikt en 8 rollouts per prompt vereist.
- Dit resulteert in een aanzienlijke reductie in rekentijd en kosten.
Ablatie Studies:
- Generatielengte: Langere generaties (2048 of 4096 tokens) leverden betere resultaten op dan kortere generaties (1024 tokens), omdat de student meer supervisiesignalen ontvangt.
- Leerdoel: Het gebruik van full-vocabulary logit distillation (vergelijken van de volledige distributie) presteerde beter dan sampled-token distillation (alleen kijken naar het gegenereerde token), hoewel dit meer geheugen vereist.

5. Betekenis en Impact

OPSD biedt een krachtig alternatief voor de huidige staat der kunst in het trainen van redenerende LLMs:

Kostenverlaging: Door de afhankelijkheid van externe leraren en het hoge aantal benodigde rollouts (zoals bij RL/GRPO) te elimineren, wordt de trainingskosten drastisch verlaagd.
Dichte Feedback: Het lost het probleem van spaarzame beloningen op door per-token feedback te geven, wat leidt tot fijnmazigere correcties tijdens het redeneringsproces.
Toekomstperspectief: Het werk suggereert dat "self-rationalization" (het vermogen van een model om een oplossing te begrijpen en te rationaliseren) een cruciale schakel is voor het verbeteren van redeneervermogen. Het opent de deur voor schaalbare, zelflerende systemen die minder afhankelijk zijn van menselijke annotatie of dure RLVR-processen.

Kortom, OPSD bewijst dat een LLM zichzelf effectief kan onderwijzen door de grondwaarheid te gebruiken als een "privilege context" voor een interne leraar, wat leidt tot superieure redeneerprestaties met een fractionele rekenkosten.

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Het Concept: De "Twee Hoeden" Methode

Hoe werkt het? (De Creatieve Analogie)

Waarom is dit zo geweldig?

De Grootte van de "Student"

Samenvattend

1. Het Probleem

2. Methodologie: On-Policy Self-Distillation (OPSD)

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers