Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Deze paper introduceert een curriculum learning-framework met structurele masking en GRPO om Chain-of-Thought-redenering efficiënt te distilleren naar compacte modellen, wat resulteert in een aanzienlijke verbetering van de nauwkeurigheid en een verkorting van de outputlengte.

Bowen Yu, Maolin Wang, Sheng Zhang, Binhao Wang, Yi Wen, Jingtong Gao, Bowen Liu, Zimo Zhao, Wanyu Wang, Xiangyu Zhao

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundig genie (de "leraar") hebt die een probleem oplost. Deze genie denkt hard na en schrijft elke gedachte op, stap voor stap, in een heel lang, gedetailleerd verhaal. Het is perfect, maar ook erg langdradig.

Nu heb je een kleine, slimme student (een klein computermodel van 3 miljard parameters) die dit verhaal moet leren nabootsen. Het probleem? De student is te klein om dat hele lange verhaal letterlijk uit zijn hoofd te leren. Als je hem dwingt het woord voor woord over te schrijven, raakt hij in de war, begint hij te herhalen of geeft hij halve antwoorden.

Dit artikel introduceert BRIDGE, een slimme leermethode die als een bouwplan werkt om deze student toch een expert te maken, maar dan op zijn eigen, compacte manier. In plaats van het lange verhaal te kopiëren, leert de student de essentie van het denken.

Hier is hoe het werkt, in drie stappen, vergeleken met het leren van een complexe dans of het bouwen van een huis:

Stap 1: De Skelet-bouwer (Structuur begrijpen)

Stel je voor dat je de student een doos met losse, door elkaar gehusselde LEGO-blokjes geeft. Sommige blokjes ontbreken zelfs. De opdracht is niet om het hele huis na te bouwen, maar om te raden: "Welke blokjes horen bij elkaar en in welke volgorde moet je ze leggen?"

  • Wat het doet: De computer "versteurt" het lange antwoord van de leraar. Hij verwart de volgorde van de stappen en verwijdert soms een stap. De student moet dan de logica achterhalen om het verhaal weer logisch te maken.
  • De analogie: Het is alsof je iemand leert een auto te repareren door hem eerst de losse onderdelen te laten sorteren en te vragen welke bout bij welk wiel hoort, voordat je hem de hele motor laat demonteren. De student leert nu de logische structuur (de "skeletstructuur") van het probleem, zonder zich te laten verblinden door de lange tekst.

Stap 2: De Kunst van het Kortkappen (GRPO)

Nu de student de structuur begrijpt, is het tijd om te leren kort en krachtig te zijn. Stel je voor dat de student nu een verhaal moet vertellen, maar hij krijgt een straf als hij te lang praat.

  • Wat het doet: De computer probeert het antwoord opnieuw, maar nu met een speciale beloningssysteem (GRPO).
    • Als het antwoord fout is, krijgt de student een straf, ook al was hij kort.
    • Als het antwoord goed is, krijgt hij een extra beloning als hij het korter kan vertellen dan de leraar.
  • De analogie: Het is als een schrijfwedstrijd waarbij je een verhaal moet vertellen dat precies waar is, maar je krijgt goudmuntjes als je het in minder dan 10 zinnen doet. De student leert hierdoor: "Ik hoef niet elke detail te noemen, zolang de kern maar klopt." Hij zoekt zelf de balans tussen "goed" en "kort".

Stap 3: De Slimme Vertaler (Leraar-gestuurd)

Soms zijn er problemen die echt te moeilijk zijn, zelfs voor de slimme student. Hij blijft vastlopen. In plaats van de leraar het antwoord voor te schrijven, geeft de leraar nu het volledige, lange antwoord en zegt: "Kijk, dit is hoe ik het doe. Nu is het jouw beurt om dit in je eigen woorden, kort en bondig, op te schrijven."

  • Wat het doet: De student ziet het lange antwoord, maar moet het zelf herschrijven tot een beknopte versie. Hij mag niet kopiëren; hij moet de logica "in zich opnemen" (internaliseren) en vertalen naar zijn eigen, compacte stijl.
  • De analogie: Het is alsof een chef-kok (de leraar) een recept geeft met 50 stappen. De student (de kok) moet dat recept nu vertalen naar een snelle "3-stappen-versie" die hij zelf kan onthouden, zonder de smaak (het juiste antwoord) te verliezen.

Wat is het resultaat?

Dankzij deze drie stappen (eerst structuur, dan kortkappen, dan vertalen) leert de kleine student:

  1. Sneller te denken: Hij gebruikt minder "woorden" (tokens) om tot hetzelfde resultaat te komen.
  2. Beter te presteren: Hij maakt minder fouten dan andere methoden, omdat hij de logica echt begrijpt in plaats van blindelings te kopiëren.

Kortom: BRIDGE is geen methode om de student te dwingen een lange tekst te memoriseren. Het is een tutor die de student eerst leert hoe het denken werkt, en hem dan leert dat denken op een manier die past bij zijn eigen kleine hersenen. Het resultaat is een model dat net zo slim is als de grote modellen, maar veel slimmer en sneller reageert.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →