Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een roman schrijft. De traditionele manier waarop deze modellen werken, is als een zeer voorzichtige schrijver die één woord per keer bedenkt. Hij schrijft "De", kijkt dan na, denkt na, schrijft "man", kijkt weer na, schrijft "loopt", enzovoort. Dit is veilig, maar het is ook traag. Voor lange verhalen duurt het eeuwen.
Multi-Token Prediction (MTP) is een nieuwe truc om dit sneller te maken. In plaats van één woord, probeert de schrijver er meerdere woorden tegelijk te raden. Hij zegt: "De man loopt... snel... naar... huis." Als hij het goed heeft, bespaart hij enorm veel tijd.
Het probleem? De schrijver is niet altijd even goed in het raden van de latere woorden. Soms zegt hij "De man loopt... snel... naar... vliegtuig" terwijl hij "huis" moest zeggen. Dan moet de computer al die fouten weer terugdraaien en opnieuw beginnen. Dit heet een lage "acceptatiegraad". Hoe lager de graad, hoe minder snel het systeem wordt.
Hier komt het nieuwe onderzoek van Tencent met MTP-D en de Looped-strategie om de oplossing te bieden.
1. De Oplossing: MTP-D (De Slimme Kloon)
Stel je voor dat de hoofdschrijver (het hoofdmodel) een meester is, en de extra schrijvers (de MTP-hoofden) zijn zijn leerlingen.
- Het oude probleem: De leerlingen leerden alleen van het boek (de grondwaarheid), maar ze keken niet genoeg naar de meester. Daardoor schreven ze soms dingen die de meester nooit zou zeggen.
- De nieuwe methode (MTP-D): De auteurs laten de leerlingen nu ook kijken wat de meester schrijft terwijl ze zelf schrijven. Ze proberen de "topkeuzes" van de meester na te bootsen.
- De analogie: Het is alsof de leerlingen een spiegel krijgen. Ze zien wat de meester denkt, en ze proberen hun eigen gedachten daarop af te stemmen.
- Het resultaat: De leerlingen worden veel beter in het voorspellen van de volgende woorden, zonder dat de meester zelf traag wordt of fouten maakt. Ze worden sneller en slimmer, terwijl de meester precies even goed blijft.
2. De Uitbreiding: De "Loop" Strategie
Nu de leerlingen (de eerste 4 MTP-hoofden) goed zijn getraind, willen de auteurs er nog meer toevoegen om nog sneller te zijn. Maar nieuwe leerlingen toevoegen is vaak moeilijk; ze raken in de war en presteren slecht.
De auteurs gebruiken een slimme truc: De Loop.
- De analogie: Stel je een trein voor. Je hebt een locomotief (het hoofd) en vier wagons (de eerste 4 leerlingen). Nu wil je 4 nieuwe wagons toevoegen. In plaats van nieuwe wagons leeg te laten beginnen, neem je de ontwerpplannen van de eerste 4 wagons en kopieer je die voor de nieuwe 4.
- Omdat de eerste 4 al weten hoe ze zich moeten gedragen, weten de nieuwe 4 ook precies wat ze moeten doen. Ze "leren" van de ervaring van hun voorgangers.
- Dit maakt het mogelijk om de trein langzaam uit te breiden van 4 wagons naar 8, en zelfs naar 16, zonder dat het systeem instort.
3. Wat levert dit op?
Door deze twee methoden te combineren (de spiegel voor de leerlingen + het kopiëren van de ontwerpen voor de uitbreiding):
- Snelheid: De computer kan nu veel meer woorden per seconde produceren. De paper meldt een snelheidswinst van wel 220% vergeleken met de oude methode met één extra kopie.
- Betrouwbaarheid: De "acceptatiegraad" (hoe vaak de voorspellingen goed zijn) stijgt met 7,5%. Dat klinkt klein, maar in de wereld van AI betekent dit dat de computer veel minder tijd verspilt aan het corrigeren van fouten.
- Kosten: Het kost bijna geen extra tijd om dit te trainen. Het is een slimme aanpassing van bestaande processen.
Samenvattend
Stel je voor dat je een team hebt dat een lange brief moet typen.
- Vroeger: Iedereen wachtte tot de vorige persoon klaar was met één letter.
- Nu (MTP): Ze proberen een heel woord tegelijk te typen.
- Met MTP-D: Ze kijken over de schouder van de beste schrijver om zeker te weten dat ze het juiste woord kiezen.
- Met de Loop: Als ze goed zijn, kopieer je hun team en voeg je een tweede team toe dat precies zo werkt, zodat ze dubbel zo snel kunnen werken.
Dit onderzoek maakt AI-chatbots niet alleen slimmer, maar vooral veel sneller, waardoor ze in de toekomst veel complexere taken in een fractie van de tijd kunnen uitvoeren.
Verdrinkt u in papers in uw vakgebied?
Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.