Distillation of Large Language Models via Concrete Score Matching

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkok (de grote AI) hebt die fantastisch kan koken, maar die kok is zo groot en traag dat hij alleen in een gigantisch, duur restaurant past. Je wilt die kookkunsten overbrengen op een leerlingkok (de kleine AI) die in een klein, snel restaurantje kan werken. Dit proces noemen we "kennisdistillatie".

Het probleem is dat de oude methoden om deze kennis over te dragen, een beetje als een vervagen filter werken. Ze kijken alleen naar het eindresultaat: "Welke ingrediënten heeft de meesterkok gebruikt?" Maar ze vergeten de subtiele nuances: waarom koos hij voor die specifieke hoeveelheid zout? Waarom was de temperatuur precies zo? De oude methoden zeggen: "De kans dat hij zout gebruikt is 99%," maar vergeten dat de kans op peper 0,0001% is, terwijl die 0,0001% juist het verschil maakt tussen een goed en een geweldig gerecht.

Deze paper introduceert een nieuwe methode genaamd CSD (Concrete Score Distillation). Laten we dit uitleggen met een paar creatieve metaforen:

1. Het probleem met de oude methode: De "Softmax-Filter"

Stel je voor dat de meesterkok een lijst maakt met alle mogelijke ingrediënten.

De oude manier (Softmax): De kok zegt: "Ik gebruik zout (99%), peper (0,99%) en suiker (0,01%)." Als je dit naar een getal omzet, lijkt het alsof peper en suiker bijna hetzelfde zijn: beide zijn "bijna nul". De leerling ziet niet het enorme verschil in intentie dat de kok had. De leerling denkt: "Oh, peper en suiker zijn beide onbelangrijk," en leert ze niet goed.
Het gevolg: De leerling wordt saai. Hij maakt alleen maar de meest voor de hand liggende keuzes en mist de creativiteit van de meester.

2. De oude "Directe Logit" methode: De "Rijstkorrel-meting"

Er was al een poging om de leerling de exacte getallen van de meester te laten zien (niet de percentages, maar de ruwe getallen).

Het probleem: Stel je voor dat de meesterkok zegt: "De temperatuur moet 100 graden zijn." De leerling probeert dit na te bootsen. Maar wat als de leerling de temperatuur op 105 graden zet? Dat is nog steeds een perfecte maaltijd! De oude methode zegt echter: "Nee, je moet exact 100 graden zijn, anders heb je gefaald."
De beperking: Dit maakt het leven van de leerling onnodig moeilijk. Hij mag geen ruimte hebben om te variëren, zolang het resultaat maar goed is. Het is alsof je een leerling dwingt om elke stap exact in de voetsporen van de meester te zetten, zelfs als hij een kortere weg kan nemen die hetzelfde resultaat geeft.

3. De nieuwe oplossing: CSD (De "Relatieve Kompas-naald")

De auteurs van dit papier hebben een slimme nieuwe manier bedacht, gebaseerd op het vergelijken van relaties in plaats van absolute waarden.

Stel je voor dat de meesterkok geen lijst met absolute temperaturen geeft, maar een kompas dat aangeeft hoe de ingrediënten zich tot elkaar verhouden.

De analogie: In plaats van te zeggen "Zout is 100 graden en peper is 90 graden", zegt de meester: "Zout is 10 graden 'warmer' dan peper."
De kracht: Het maakt niet uit of de leerling de temperatuur op 100 graden zet of op 1000 graden, zolang het verschil tussen zout en peper maar 10 graden blijft.
Waarom is dit beter?
1. Geen vervaging: De leerling ziet precies hoe de meester de verhoudingen ziet, zelfs voor de zeldzame ingrediënten (zoals die 0,0001% suiker).
2. Meer vrijheid: De leerling mag zijn eigen "basisniveau" kiezen, zolang hij de verhoudingen maar behoudt. Dit geeft hem meer ruimte om te leren zonder vast te lopen in een te strakke kooi.

Wat levert dit op?

In de experimenten van de paper (waar ze verschillende grote AI-modellen hebben getest) bleek dat deze nieuwe methode:

Beter leert: De kleine AI-modellen werden slimmer en leken meer op de grote meester.
Meer diversiteit: De AI werd niet saai en herhaalde zich niet. Hij durfde creatievere antwoorden te geven (zoals een kok die durft te experimenteren).
Sneller en stabieler: Het leerproces liep soepeler, zonder dat de AI "vastliep" in fouten.

Kort samengevat:
Deze paper zegt: "Stop met het kopiëren van de exacte cijfers van de meesterkok. Leer in plaats daarvan de relaties tussen de ingrediënten. Als je begrijpt dat 'dit' altijd net iets 'beter' is dan 'dat', dan kun je de kunst van het koken (of het schrijven van tekst) perfect overnemen, zelfs in een klein, snel restaurantje."

Het is alsof je iemand niet leert wat de exacte temperatuur van de oven is, maar leert hoe je de oven regelt zodat het eten perfect wordt, ongeacht de exacte graden. Dat is de kracht van Concrete Score Distillation.

Each language version is independently generated for its own context, not a direct translation.

Titel: Distillatie van Grote Taalmodellen via Concrete Score Matching

Publicatie: ICLR 2026
Auteurs: Yeongmin Kim, Donghyeok Shin, Mina Kang, Byeonghu Na, Il-Chul Moon (KAIST & summary.ai)

1. Het Probleem

Grote Taalmodellen (LLMs) presteren uitstekend, maar zijn kostbaar om te deployen vanwege de hoge inferentiekosten. Kennisdistillatie (Knowledge Distillation - KD) wordt gebruikt om een kleiner "student" model te trainen dat de vaardigheden van een groot "leraar" model nabootst.

De huidige standaardmethoden voor KD hebben echter twee fundamentele beperkingen:

Softmax-geïnduceerde smoothing: Traditionele methoden (zoals KL-divergentie) werken op de waarschijnlijkheidsverdelingen die via de softmax-functie uit de logits (ruwe neurale netwerkwinsten) worden gegenereerd. De softmax-functie "verwast" waardevolle informatie in de logits. Zelfs als de logits van de leraar sterk verschillen, kunnen de resulterende kansen bijna identiek zijn, vooral bij grote vocabulaires waar de meeste tokens een kans dicht bij nul hebben. Hierdoor leert het studentmodel de kennis van de leraar niet nauwkeurig.
Beperking van de oplossingsruimte: Directe Logit Distillatie (DLD) probeert dit door direct op de logits te werken (bijv. via Mean Squared Error). Echter, DLD vereist dat de logits van het studentmodel exact overeenkomen met die van de leraar. Dit negeert het feit dat voor de inferentie (via softmax) alleen de relatieve verschillen tussen logits belangrijk zijn; een constante verschuiving (additieve constante) zou de uitkomst niet moeten veranderen. DLD dwingt de constante verschuiving op nul, wat de ruimte van optimale oplossingen onnodig beperkt, vooral wanneer er een groot capaciteitsverschil is tussen leraar en student.

2. Methodologie: Concrete Score Distillation (CSD)

De auteurs stellen Concrete Score Distillation (CSD) voor, een nieuwe objectieve functie gebaseerd op score matching voor discrete variabelen.

Theoretische Basis: CSD leunt op het concept van Concrete Score Matching (Meng et al., 2022). In plaats van de waarschijnlijkheidsverdeling direct te matchen, matcht CSD de "scores" (log-ratio's van kansen) tussen verschillende tokens in het vocabulaire.
De Loss-functie: De kern van CSD is het minimaliseren van het verschil in log-ratio's tussen student en leraar voor alle paren van tokens $(y_t, x)$ in het vocabulaire:
$L_{CSD} = \frac{1}{2} \sum_{y_t \in V} \sum_{x \in V} w(y_t, x) \left( \log \frac{q_\theta(x)}{q_\theta(y_t)} - \log \frac{p_T(x)}{p_T(y_t)} \right)^2$
Door de logaritme toe te passen, wordt dit omgezet in een verschil tussen de logits (de ruwe outputs van het netwerk):
$= \frac{1}{2} \sum_{y_t \in V} \sum_{x \in V} w(y_t, x) (f_\theta[x] - f_\theta[y_t] - f_T[x] + f_T[y_t])^2$
Hierbij is $f$ de logit-vector. Deze formule matcht de relatieve logit-differenties tussen student en leraar.
Oplossing van Trainingsproblemen:
- Stabiliteit: Het direct gebruiken van kansverhoudingen ( $q(x)/q(y)$ ) kan instabiel zijn als de noemer naar nul gaat. CSD gebruikt de log-transformatie om dit probleem te omzeilen en werkt direct op de stabiele logits.
- Efficiëntie: Een directe berekening van de loss zou $O(|V|^2)$ complexiteit hebben (kwadratisch met de vocabulairegrootte), wat onpraktisch is. De auteurs bewijzen dat de gradient van deze loss echter in lineaire tijd $O(|V|)$ kan worden berekend door de onafhankelijke variabelen te factoriseren en gebruik te maken van gewogen gemiddelden. Dit maakt CSD toepasbaar op grote LLMs.
Flexibiliteit: CSD introduceert twee weegfuncties, $w_1$ en $w_2$ , die de bijdrage van verschillende tokens tijdens het trainen en normaliseren controleren. Dit stelt onderzoekers in staat om te kiezen tussen:
- Mode-seeking: Focus op de meest waarschijnlijke tokens (hoge fideliteit).
- Mode-covering: Focus op een bredere reeks tokens (hogere diversiteit).

3. Belangrijkste Bijdragen

Nieuwe Loss-functie: Introductie van CSD, die zowel de softmax-smoothing als de beperkingen van DLD oplost.
Theoretische Garantie: Bewijs dat de optimale oplossingsruimte van CSD een strikte superverzameling is van die van DLD ( $\Theta^*_{CSD} \supsetneq \Theta^*_{DLD}$ ). CSD staat toe dat de logits van de student een constante verschuiving hebben ten opzichte van de leraar, wat theoretisch en empirisch superieur is.
Efficiënte Implementatie: Een analytische gradient-berekening die de kwadratische complexiteit reduceert naar lineaire complexiteit, waardoor training op grote vocabulaires haalbaar is.
Uitgebreide Evaluatie: CSD wordt getest op diverse taken (instructie-opvolging, samenvatting, wiskunde, vertaling, chat) met verschillende leraar/student-combinaties (GPT-2, OpenLLaMA, Gemma, Qwen).

4. Resultaten

De experimenten tonen aan dat CSD consequent beter presteert dan bestaande methoden:

Algemene Prestaties: CSD behaalde de hoogste gemiddelde scores op instructie-opvolgingsbenchmarks (zoals Dolly Eval, Vicuna Eval) in vergelijking met KL-divergentie, Reverse KL, Skewed KL en directe logit distillatie.
Fideliteit-Diversiteit Trade-off: CSD biedt een flexibelere regeling voor de balans tussen het nauwkeurig nabootsen van de leraar (fideliteit) en het genereren van diverse output. Door de weegfuncties aan te passen, kan CSD beter presteren dan eerdere methoden in dit trade-off-domein.
Taak-specifiek: Bij taken zoals wiskundig redeneren (GSM8K) en vertaling, waar andere methoden vaak faalden (bijv. door te vallen in suboptimale modi of repetitieve fouten), behaalde CSD stabiele en accurate resultaten.
Scalabiliteit: De methode werkt effectief van kleine modellen (GPT-2 0.1B) tot grotere modellen (Gemma2-9B IT), en presteert zelfs beter wanneer gecombineerd met on-policy technieken.

5. Betekenis en Impact

Dit paper biedt een fundamentele doorbraak in de kennisdistillatie van LLMs. Door de afhankelijkheid van de softmax-transformatie te doorbreken en de beperkingen van directe logit-matching op te heffen, stelt CSD onderzoekers en ingenieurs in staat om kleinere modellen te trainen die de kennis van grote modellen veel nauwkeuriger en flexibeler overnemen.

De belangrijkste implicaties zijn:

Efficiëntere Deployments: Het mogelijk maken van kleinere, snellere modellen met minder kwaliteitsverlies.
Robuustheid: Het vermijden van instabiel trainen en het vinden van betere oplossingen in complexe optimalisatie-landschappen.
Design Space: Het openen van een nieuw ontwerpruimte voor distillatie-losses via de aanpasbare weegfuncties, wat leidt tot betere controle over de generatieve eigenschappen van het studentmodel.

De code is open source beschikbaar gesteld, wat de adoptie en verdere ontwikkeling van deze techniek in de gemeenschap zal stimuleren.

Distillation of Large Language Models via Concrete Score Matching

1. Het probleem met de oude methode: De "Softmax-Filter"

2. De oude "Directe Logit" methode: De "Rijstkorrel-meting"

3. De nieuwe oplossing: CSD (De "Relatieve Kompas-naald")

Wat levert dit op?

Titel: Distillatie van Grote Taalmodellen via Concrete Score Matching

1. Het Probleem

2. Methodologie: Concrete Score Distillation (CSD)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning