Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme student bent die wiskundeproblemen oplost. Meestal leer je op één van twee manieren:

  1. De "Kopieer-en-plak" methode (SFT): Je kijkt naar het antwoord in het antwoordboekje en probeert het woord voor woord na te schrijven. Het probleem? Je leert niet echt hoe je erbij komt, je leert alleen de uitkomst. Als je een ander probleem krijgt, raak je in de war.
  2. De "Probeer maar" methode (RL/GRPO): Je probeert het probleem op te lossen door gissen. Als je het goed hebt, krijg je een sterretje. Als je het fout hebt, krijg je niets. Het nadeel? Je moet duizenden keren gissen voordat je iets leert, en als je 8 keer gissen doet en ze zijn allemaal fout, leer je niets van die 8 pogingen. Het is duur en inefficiënt.

De auteurs van dit paper hebben een derde, slimme manier bedacht: OPSD (On-Policy Self-Distillation).

Het Concept: De "Twee Hoeden" Methode

Stel je voor dat je dezelfde persoon bent, maar je hebt twee verschillende hoeden op:

  • Hoed 1: De Leerling (Student). Deze hoed ziet alleen het vraagstuk. Hij moet het antwoord bedenken zonder hulp.
  • Hoed 2: De Meester (Teacher). Deze hoed ziet het vraagstuk én het juiste antwoord (of de volledige oplossing) al. Hij is dus "beter" omdat hij meer informatie heeft.

In de traditionele wereld heb je een echte meester (een grotere computer) nodig om de leerling te helpen. Maar OPSD zegt: "Wacht, we kunnen dezelfde computer gebruiken voor beide rollen!"

Hoe werkt het? (De Creatieve Analogie)

Stel je een situatie voor waarin je een lastig raadsel probeert op te lossen.

  1. De Leerling probeert het: Je (als leerling) schrijft je eigen oplossing op. Misschien maak je een foutje halverwege, of misschien vind je een omweg.
  2. De Meester kijkt mee: Nu trek je je "Meester-hoed" op. Je ziet wat de leerling heeft geschreven, MAAR je hebt ook het antwoordboekje bij je.
  3. De "Zachte" Correctie: In plaats van te zeggen "Fout, begin opnieuw" (zoals bij het gissen), zegt de Meester: "Kijk, op stap 3 had je een andere richting kunnen kiezen. Kijk eens naar de kans dat ik op stap 3 een ander woord zou kiezen, omdat ik het antwoord al ken."

De computer (het model) leert dan niet door te straffen, maar door te kijken naar het verschil tussen wat de leerling dacht en wat de meester (met het antwoord) zou hebben gedaan.

Waarom is dit zo geweldig?

  • Geen externe meester nodig: Je hebt geen supercomputer nodig om een kleinere computer te trainen. De computer is zijn eigen leraar.
  • Elk woord telt: Bij de "Probeer maar" methode (RL) krijg je pas feedback als de hele zin klaar is. Bij OPSD krijg je feedback op elk woord dat je schrijft. Het is alsof je een leraar hebt die fluistert: "Nee, niet 'hond', denk eens aan 'kat'..." terwijl je nog aan het schrijven bent.
  • Veel sneller: Omdat je zo veel meer informatie krijgt per poging, hoef je niet duizenden keren te proberen. Het paper laat zien dat deze methode 8 tot 12 keer sneller is dan de beste bestaande methoden (zoals GRPO) om even goede resultaten te bereiken.

De Grootte van de "Student"

Er is één belangrijke regel: De computer moet al slim genoeg zijn om de oplossing te begrijpen.

  • Als je een heel klein, dom model neemt, kan het de "Meester" niet begrijpen, zelfs niet als het het antwoord ziet. Het is alsof je een peuter een universitair wiskundebestand laat lezen; hij ziet de letters, maar snapt de logica niet.
  • Maar zodra het model groot genoeg is (bijvoorbeeld 4 miljard of 8 miljard parameters), werkt het wonderbaarlijk goed. Het kan zichzelf "rationeel" maken: "Ah, ik zag dat het antwoord X was, dus waarom heb ik Y gekozen? Volgende keer kies ik X."

Samenvattend

OPSD is als een student die na het maken van een fout in zijn huiswerk, het antwoordboekje pakt, de oplossing bestudeert, en dan zegt: "Oké, ik snap nu waar ik het mis had. Ik ga mijn eigen denken herschrijven zodat het meer lijkt op wat ik nu weet."

Het is een manier om AI's te laten leren van hun eigen fouten, met de hulp van hun eigen "toekomstige zelf" dat het antwoord al kent, zonder dat er een dure, externe leraar nodig is. Dit maakt het trainen van slimme AI's veel goedkoper en sneller.