Self-Distillation for Multi-Token Prediction

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een roman schrijft. De traditionele manier waarop deze modellen werken, is als een zeer voorzichtige schrijver die één woord per keer bedenkt. Hij schrijft "De", kijkt dan na, denkt na, schrijft "man", kijkt weer na, schrijft "loopt", enzovoort. Dit is veilig, maar het is ook traag. Voor lange verhalen duurt het eeuwen.

Multi-Token Prediction (MTP) is een nieuwe truc om dit sneller te maken. In plaats van één woord, probeert de schrijver er meerdere woorden tegelijk te raden. Hij zegt: "De man loopt... snel... naar... huis." Als hij het goed heeft, bespaart hij enorm veel tijd.

Het probleem? De schrijver is niet altijd even goed in het raden van de latere woorden. Soms zegt hij "De man loopt... snel... naar... vliegtuig" terwijl hij "huis" moest zeggen. Dan moet de computer al die fouten weer terugdraaien en opnieuw beginnen. Dit heet een lage "acceptatiegraad". Hoe lager de graad, hoe minder snel het systeem wordt.

Hier komt het nieuwe onderzoek van Tencent met MTP-D en de Looped-strategie om de oplossing te bieden.

1. De Oplossing: MTP-D (De Slimme Kloon)

Stel je voor dat de hoofdschrijver (het hoofdmodel) een meester is, en de extra schrijvers (de MTP-hoofden) zijn zijn leerlingen.

Het oude probleem: De leerlingen leerden alleen van het boek (de grondwaarheid), maar ze keken niet genoeg naar de meester. Daardoor schreven ze soms dingen die de meester nooit zou zeggen.
De nieuwe methode (MTP-D): De auteurs laten de leerlingen nu ook kijken wat de meester schrijft terwijl ze zelf schrijven. Ze proberen de "topkeuzes" van de meester na te bootsen.
- De analogie: Het is alsof de leerlingen een spiegel krijgen. Ze zien wat de meester denkt, en ze proberen hun eigen gedachten daarop af te stemmen.
- Het resultaat: De leerlingen worden veel beter in het voorspellen van de volgende woorden, zonder dat de meester zelf traag wordt of fouten maakt. Ze worden sneller en slimmer, terwijl de meester precies even goed blijft.

2. De Uitbreiding: De "Loop" Strategie

Nu de leerlingen (de eerste 4 MTP-hoofden) goed zijn getraind, willen de auteurs er nog meer toevoegen om nog sneller te zijn. Maar nieuwe leerlingen toevoegen is vaak moeilijk; ze raken in de war en presteren slecht.

De auteurs gebruiken een slimme truc: De Loop.

De analogie: Stel je een trein voor. Je hebt een locomotief (het hoofd) en vier wagons (de eerste 4 leerlingen). Nu wil je 4 nieuwe wagons toevoegen. In plaats van nieuwe wagons leeg te laten beginnen, neem je de ontwerpplannen van de eerste 4 wagons en kopieer je die voor de nieuwe 4.
Omdat de eerste 4 al weten hoe ze zich moeten gedragen, weten de nieuwe 4 ook precies wat ze moeten doen. Ze "leren" van de ervaring van hun voorgangers.
Dit maakt het mogelijk om de trein langzaam uit te breiden van 4 wagons naar 8, en zelfs naar 16, zonder dat het systeem instort.

3. Wat levert dit op?

Door deze twee methoden te combineren (de spiegel voor de leerlingen + het kopiëren van de ontwerpen voor de uitbreiding):

Snelheid: De computer kan nu veel meer woorden per seconde produceren. De paper meldt een snelheidswinst van wel 220% vergeleken met de oude methode met één extra kopie.
Betrouwbaarheid: De "acceptatiegraad" (hoe vaak de voorspellingen goed zijn) stijgt met 7,5%. Dat klinkt klein, maar in de wereld van AI betekent dit dat de computer veel minder tijd verspilt aan het corrigeren van fouten.
Kosten: Het kost bijna geen extra tijd om dit te trainen. Het is een slimme aanpassing van bestaande processen.

Samenvattend

Stel je voor dat je een team hebt dat een lange brief moet typen.

Vroeger: Iedereen wachtte tot de vorige persoon klaar was met één letter.
Nu (MTP): Ze proberen een heel woord tegelijk te typen.
Met MTP-D: Ze kijken over de schouder van de beste schrijver om zeker te weten dat ze het juiste woord kiezen.
Met de Loop: Als ze goed zijn, kopieer je hun team en voeg je een tweede team toe dat precies zo werkt, zodat ze dubbel zo snel kunnen werken.

Dit onderzoek maakt AI-chatbots niet alleen slimmer, maar vooral veel sneller, waardoor ze in de toekomst veel complexere taken in een fractie van de tijd kunnen uitvoeren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Self-Distillation voor Multi-Token Predictie (MTP-D)

Auteurs: Guoliang Zhao, Ruobing Xie, et al. (Tencent Large Language Model Department)

1. Het Probleem

Naarmate Large Language Models (LLMs) groter worden, wordt de inferentie-efficiëntie een kritieke bottleneck. De meeste LLMs gebruiken het Next-Token Prediction (NTP) paradigma, waarbij tokens sequentieel en autoregressief worden gegenereerd. Dit leidt tot hoge latentie en rekenkosten, vooral bij lange sequenties.

Multi-Token Prediction (MTP) is een veelbelovende oplossing die meerdere toekomstige tokens parallel voorspelt om de inferentie te versnellen. Echter, bestaande MTP-benaderingen (zoals die in DeepSeek-V3) kampen met twee fundamentele uitdagingen:

Beperkte acceptatiepercentages: Er is een prestatiekloof tussen de "hoofd" (main head) en de MTP-hoofden. Dit leidt tot een exponentiële daling van het cumulatieve acceptatiepercentage, waardoor de versnelling in de praktijk beperkt blijft.
Moeilijkheden bij gezamenlijke training: Het trainen van meerdere MTP-hoofden samen met de hoofd-taak is complex. Er treedt een "wip-wap" effect op (seesaw effect): het verbeteren van de MTP-hoofden gaat vaak ten koste van de prestaties van de hoofd-taak, wat in de praktijk onacceptabel is.

2. Methodologie: MTP-D

De auteurs stellen MTP-D voor, een eenvoudige maar effectieve self-distillation-methode die de acceptatiepercentages van MTP-hoofden verhoogt zonder de prestaties van de hoofd-taak te schaden. De methode bestaat uit twee kerncomponenten:

A. Self-Distillation tijdens Pre-training

In plaats van alleen te vertrouwen op ground-truth tokens, gebruiken de MTP-hoofden de output van de hoofd-taak als leraar.

Gradient-Detached: De logits van de hoofd-taak worden gebruikt als "teacher", maar met een stop-gradient operatie. Dit betekent dat de gradiënten van de distillatieverliesfunctie niet terugpropageren naar de hoofd-taak, waardoor de optimalisatie van de hoofd-taak niet wordt verstoord.
TopN-logits Selectie: Gezien de enorme vocabulairegrootte (bijv. 122.880 tokens) en de lange staartverdeling van waarschijnlijkheden, is volledige distillatie computatief zwaar en numeriek instabiel. De methode selecteert alleen de TopN (10.000) meest waarschijnlijke tokens van de hoofd-taak voor distillatie.
Verliesfunctie: De totale loss is een combinatie van:
1. Cross-Entropy Loss (CE): Voor de basiscorrectheid tegenover de ground-truth tokens.
2. KL-Divergentie Loss (KL): Een unidirectionele distillatieverliesfunctie die de logit-verdeling van de MTP-hoofden aligneert met die van de hoofd-taak (via de TopN tokens).

B. Looped Extension Strategie

Om het aantal MTP-hoofden verder te schalen (bijv. van 4 naar 16) zonder de training te vertragen, introduceren de auteurs een "looped extension" strategie:

Een reeds getrainde groep van $m$ MTP-hoofden wordt gebruikt om de volgende groep van $m$ hoofden te initialiseren (gewichtskopie).
Vervolgens wordt continue pre-training uitgevoerd op deze uitgebreide set, waarbij de hoofd-taak en de oorspronkelijke hoofden bevroren (frozen) blijven.
Dit benut de inherente structurele consistentie en input-output gelijkenis van de cascaded MTP-architectuur.

3. Belangrijkste Bijdragen

MTP-D Framework: Een nieuw self-distillation kader dat de acceptatiepercentages van MTP-hoofden aanzienlijk verbetert met minimale extra trainingskosten en zonder de hoofd-taak prestaties te verlagen.
Looped Extension: Een kostenefficiënte strategie om het aantal MTP-hoofden stapsgewijs uit te breiden via continue pre-training, wat leidt tot significante snelheidswinsten.
Systematische Validatie: Uitgebreide experimenten op zeven benchmarks die inzicht geven in de schaalbaarheid van MTP en bewijzen dat de methode werkt voor zowel Dense als MoE (Mixture of Experts) modellen.

4. Resultaten

De experimenten zijn uitgevoerd op 2B Dense en 10B A1B MoE modellen, getraind op het FineWeb-Edu dataset.

Acceptatiepercentages: MTP-D met 4 hoofden resulteerde in een 7,5% stijging in het acceptatiepercentage van de MTP-hoofden vergeleken met de standaard MTP, terwijl de hoofd-taak prestaties vergelijkbaar bleven.
Inferentie Snelheid:
- Voor een configuratie met 1 MTP-head: ~14% versnelling.
- Voor een configuratie met 4 MTP-heads: 22,9% versnelling.
- Met de looped extension (uitbreiding van 4 naar 16 hoofden): Tot 220,4% versnelling ten opzichte van een 1-head MTP configuratie.
Schaalbaarheid: Zonder training (training-free) stortte de cumulatieve acceptatie van standaard MTP snel in (tot 0,6% bij het 3e hoofd), terwijl MTP-D een stabiel percentage van 26,70% behield, wat verder schalen mogelijk maakt.
Data Efficiëntie: De looped extension vereist relatief weinig extra data (70B tokens) om significante winst te boeken, in vergelijking met de initiële pre-training (350B tokens).

5. Betekenis en Impact

Dit werk biedt een praktische oplossing voor een van de grootste beperkingen van moderne LLMs: de inferentie-snelheid.

Efficiëntie: Door de acceptatiepercentages te verhogen, wordt de "speculative decoding" veel effectiever, wat direct leidt tot snellere generatie van tekst zonder kwaliteitsverlies.
Schaalbaarheid: De "looped extension" strategie toont aan dat het mogelijk is om het aantal parallelle voorspellers (MTP-heads) te vergroten tot 16 of meer, wat de theoretische limieten van MTP-architecturen uitdaagt.
Toepasbaarheid: De methode is eenvoudig te integreren in bestaande pre-training pipelines met minimale extra kosten, wat het zeer aantrekkelijk maakt voor industriële toepassingen van LLMs.

Kortom, MTP-D maakt Multi-Token Prediction niet alleen robuuster, maar ook schaalbaar, waardoor het een cruciale stap is naar het realiseren van snellere en efficiëntere Large Language Models.