On-Policy Self-Distillation for Reasoning Compression

Dit paper introduceert OPSDC, een methode voor on-policy zelfdistillatie die reasoning-modellen leert om hun eigen gedrag te comprimeren zonder grondwaarheid, wat leidt tot een aanzienlijke reductie in tokens en tegelijkertijd een verbeterde nauwkeurigheid op wiskundige taken.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, maar erg praatgrage vriend hebt die elke vraag met een heel verhaal beantwoordt. Als je hem vraagt: "Wat is 2 plus 2?", begint hij niet direct met "4". Nee, hij denkt hardop: "Oké, laten we eerst nadenken over wat 'plus' betekent. Misschien bedoel je in het binaire stelsel? Nee, wacht, laten we eerst de getallen controleren. Misschien is het een valstrik? Laten we het van twee kanten bekijken..."

Na 500 woorden van twijfel, herhaling en zelfcorrigeren komt hij eindelijk tot het antwoord: 4.

Dit is precies wat moderne AI-modellen doen. Ze "denken hardop" (reasoning), maar vaak is dat gedachteproces vol met ruis, twijfel en onnodige herhalingen. Het kost tijd, energie en rekenkracht, en soms maakt het de fouten erger omdat de AI zichzelf in de war praat.

De auteurs van dit paper hebben een slimme oplossing bedacht genaamd OPSDC. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. De "Stille Oefening" (Het Kernidee)

Stel je voor dat je die praatgrage vriend een opdracht geeft: "Voor deze oefening mag je alleen de kernwoorden zeggen. Geen gedoe, gewoon het antwoord."

Hij doet dit een paar keer en ziet dat het werkt. Hij wordt korter en krachtiger.
De truc van OPSDC is nu: Leer de AI om die korte manier van denken te onthouden, zelfs als je de opdracht "wees kort" niet meer geeft.

Ze doen dit door de AI twee rollen te laten spelen:

  • De Leraar: De AI krijgt de opdracht "wees kort" en geeft een beknopt antwoord.
  • De Leerling: De AI krijgt geen opdracht en probeert zelf een antwoord te geven.

De "Leerling" kijkt naar wat de "Leraar" zou hebben gezegd en probeert daar zo dicht mogelijk bij te komen. Maar hier is het magische: de Leraar is eigenlijk de AI zelf, maar dan met een knopje "kort" ingedrukt. Ze leren van zichzelf.

2. Waarom werkt dit zo goed? (De "Ruis" theorie)

Het paper ontdekt iets verrassends: Meer denken is niet altijd beter.

Stel je voor dat je een lange, kronkelige weg loopt naar een schat.

  • De oude AI liep de hele weg, maar onderweg bleef hij stilstaan, keek hij elke struik aan, twijfelde hij of hij de juiste richting op was, en liep soms zelfs de verkeerde kant op. Elke stap die hij niet nodig had, was een kans om een fout te maken.
  • De nieuwe AI (na OPSDC-training) loopt dezelfde route, maar hij loopt recht op het doel af. Hij springt over de struiken en twijfelt niet.

Omdat hij minder "stapjes" (woorden) maakt, maakt hij ook minder fouten. Het paper laat zien dat door de "ruis" (de onnodige woorden) te verwijderen, de AI eigenlijk slimmer wordt. Op moeilijke wiskundepuzzels wordt de nauwkeurigheid zelfs met 16 punten hoger, terwijl hij 57% minder woorden gebruikt!

3. De Slimme Filter (Aanpassen aan de moeilijkheid)

Een ander groot probleem bij andere methoden is dat ze alles hetzelfde behandelen. Ze proberen een simpele som ("2+2") net zo kort te maken als een complexe wiskundepuzzel. Dat werkt niet; bij complexe problemen heb je juist veel denkwerk nodig.

OPSDC is als een slimme filter die automatisch weet wanneer hij moet knijpen en wanneer hij moet laten.

  • Bij een makkelijk probleem: De AI ziet dat het antwoord snel te vinden is. De "Leraar" zegt: "Dit is triviaal, zeg het in één zin." De "Leerling" leert dit en maakt het antwoord superkort.
  • Bij een moeilijk probleem: Zelfs de "Leraar" moet nadenken. Hij kan niet kort zijn zonder de oplossing te verstoren. Dus de "Leerling" krijgt de ruimte om lang en gedetailleerd te denken.

De AI leert dus vanzelf: "Bij simpele dingen ben ik kort, bij moeilijke dingen denk ik diep na." Geen ingewikkelde instellingen nodig.

4. Het Resultaat: Korter, Sneller, Beter

Kort samengevat:

  • Vroeger: AI's waren als een student die een essay schrijft, maar halverwege begint te twijfelen, alles opnieuw schrijft, en uiteindelijk een fout maakt omdat hij te veel heeft geschreven.
  • Nu (met OPSDC): De AI is als een meester die direct naar de kern gaat. Hij heeft geleerd dat "nadenken" niet betekent "veel woorden schrijven", maar "de juiste woorden op het juiste moment kiezen".

De grote winst:
De AI wordt niet alleen sneller (hij gebruikt minder rekenkracht), maar hij maakt ook minder fouten. Door de onnodige "gezwets" te verwijderen, verdwijnt ook de kans dat de AI zichzelf in de war praat.

Het is alsof je een rommelige kamer opruimt: door de onnodige spullen weg te gooien, vind je de waarheid (het juiste antwoord) veel sneller en duidelijker.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →