Oorspronkelijke auteurs: Avinash Kumar, Sujay Sanghavi, Poulami Das

Gepubliceerd 2026-05-12✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Avinash Kumar, Sujay Sanghavi, Poulami Das

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Probleem: De "Versnellende Auto" die de Weg Kwijtraakt

Stel je voor dat je probeert een heel lang verhaal te schrijven (zoals een roman) met een briljante maar traag denkende auteur (het Doelmodel). Om tijd te besparen, huurt u een snelle, energieke stagiair (het Conceptmodel) in om de volgende paar zinnen te raden voordat de auteur ze zelfs maar heeft gelezen.

In de wereld van AI heet dit Speculatieve Decoding. De stagiair raadt een alinea, en de auteur controleert het snel. Als de stagiair het goed heeft, zegt de auteur gewoon "Goed gedaan!" en gaat hij verder, waarbij hij het zware werk overslaat om die woorden van scratch te schrijven. Als de stagiair het fout heeft, moet de auteur stoppen, de fout corrigeren en opnieuw beginnen.

De Vloek:
Het paper ontdekte een groot gebrek in hoe deze "stagiairs" worden getraind.

De Training: De stagiairs worden getraind op korte verhalen (zoals tweets of korte e-mails). Ze zijn uitstekend in het raden van het volgende woord in een zin van 200 woorden.
De Realiteit: In de echte wereld vragen mensen AI om lange rapporten, code of verhalen te schrijven die duizenden woorden lang zijn.

Naarmate het verhaal langer wordt, begint de stagiair in de war te raken. Omdat ze alleen op korte zinnen zijn getraind, verliezen ze hun "drijvende gedachte" naarmate de tekst groeit. Ze beginnen woorden te raden die niet passen bij de lange context.

Het Resultaat: De auteur moet bijna al het giswerk van de stagiair verwerpen. In plaats van tijd te besparen, vertraagt het proces omdat de auteur constant stopt om de stagiair te corrigeren. Het paper noemt dit dat de "Acceptatielengte" daalt naar bijna 1 (wat betekent dat de stagiair in feite nutteloos is).

De Oplossing: "Test-Time Speculation" (TTS)

De auteurs stellen een slimme oplossing voor genaamd Test-Time Speculation (TTS). In plaats van voor elke klus een nieuwe stagiair in te huren, leren ze dezelfde stagiair hoe hij zich moet aanpassen terwijl hij werkt.

De Analogie: De Live Coachingsessie
Stel je voor dat de stagiair het verhaal schrijft en de auteur het controleert.

Oude Manier: De stagiair raadt 10 woorden. De auteur controleert ze. Als ze fout zijn, corrigeert de auteur ze en gaat verder. De stagiair leert niets van de fout, omdat ze nooit wordt verteld waarom ze fout zat op een manier die hen helpt voor de volgende zin.
De TTS-Manier: Elke keer dat de auteur het werk van de stagiair controleert, zegt de auteur niet alleen "Goed" of "Fout". De auteur gebruikt dat moment om de stagiair een mini-les te geven.
- De auteur zegt: "Je hebt 'kat' geraden, maar in dit specifieke lange verhaal zou het woord 'hond' moeten zijn. Hier is de exacte kansverdeling die ik heb gebruikt."
- De stagiair update direct zijn hersenen (zijn interne wiskunde) op basis van deze specifieke les.
- Nu, wanneer de stagiair de volgende set woorden raadt, is hij iets slimmer en beter afgestemd op de huidige stemming van de auteur en de lange geschiedenis van het verhaal.

Waarom is dit speciaal?
Normaal gesproken moet je een model dagenlang opnieuw trainen om het beter te maken. TTS doet dit direct terwijl het verhaal wordt geschreven. Het gebruikt de "verificatiestap" (die de auteur sowieso moet doen) als een gratis trainingssein. Het is als een student die een nieuwe taal leert door een gesprek te voeren met een leraar, waarbij de leraar hen in real-time corrigeert, waardoor ze tegen het einde van het gesprek vloeiend zijn.

De Resultaten: Sneller Worden naarmate Je Langer Doorgaat

Het paper testte dit op verschillende soorten "auteurs" (AI-modellen) en "stagiairs" (speculatoren) bij moeilijke taken zoals het oplossen van wiskundeproblemen, het schrijven van code en het beantwoorden van wetenschapsvragen.

De Verbetering: Door TTS te gebruiken, werden de "stagiairs" veel beter in het raden van de juiste woorden naarmate het verhaal langer werd.
De Cijfers: Gemiddeld accepteerde het systeem 41% meer van de gissingen van de stagiair. In sommige gevallen was het tot 72% beter dan de eerdere beste methoden.
De Trend: Hoe langer de tekst wordt, hoe beter TTS werkt. Terwijl andere methoden falen na een paar duizend woorden, wordt TTS eigenlijk nauwkeuriger naarmate de generatie doorgaat, omdat de stagiair blijft leren en zich onderweg aanpast.

Samenvatting

Denk aan eerdere methoden als het inhuren van een snelle loper die alleen goed is voor een 100-meter sprint. Als je vraagt om een marathon te rennen, zakken ze in elkaar.

Test-Time Speculation is als het geven van die loper een coach die naast hen loopt en elke stap van de weg correcties en strategische aanpassingen fluistert. De loper raakt minder moe, blijft op het juiste pad en het hele team finisht de marathon veel sneller.

Het paper bewijst dat door AI te laten "leren tijdens het werk" tijdens het generatieproces, we AI snel en efficiënt kunnen houden, zelfs bij het schrijven van zeer lange documenten.

Technische Samenvatting: Speculatie tijdens Testtijd (TTS)

1. Probleemstelling

Het artikel identificeert een kritieke beperking in huidige state-of-the-art methoden voor speculatieve decoding (zoals DFlash, EAGLE-3 en PARD) wanneer deze worden toegepast op taken met lange responsen. Hoewel speculatieve decoding de inferentie van Large Language Models (LLM) versnelt door gebruik te maken van een snel "conceptueel" model om tokens te genereren en een trager "doel" model om deze te verifiëren, is de efficiëntie sterk afhankelijk van de acceptatielengte—het aantal opeenvolgende conceptuele tokens dat per ronde door het doelmodel wordt geaccepteerd.

De auteurs observeren dat acceptatielengtes voor bestaande speculatoren significant verslechteren naarmate de generatielengte toeneemt. Binnen slechts enkele duizenden outputtokens dalen acceptatielengtes vaak naar waarden dicht bij 1 (bijvoorbeeld 1,1), waardoor snelheidsvoordelen effectief worden geëlimineerd. Deze verslechtering treedt op omdat state-of-the-art speculatoren offline worden getraind op korte sequenties (doorgaans $\le$ 2K tokens), wat leidt tot een distributiemismatch wanneer ze tijdens inferentie worden gedwongen het doelmodel te benaderen op veel langere sequenties (bijvoorbeeld 20K–32K tokens). Naarmate de generatie vordert, wijken de voorspellingen van het conceptuele model af van de steeds zekerder wordende distributie van het doelmodel, wat leidt tot frequente afwijzingen.

2. Methodologie: Speculatie tijdens Testtijd (TTS)

Om deze distributiemismatch aan te pakken, stellen de auteurs Speculatie tijdens Testtijd (TTS) voor, een online distillatiebenadering die het conceptuele model in real-time aanpast tijdens het inferentieproces.

Kerninzicht

Het cruciale inzicht is dat de standaard verificatiestap bij speculatieve decoding al het nodige supervisiessignaal voor adaptatie genereert zonder extra kosten. In elke ronde berekent het doelmodel zijn volledige waarschijnlijkheidsdistributie over de conceptuele tokens. TTS maakt hiervan gebruik door:

Het Doelmodel te behandelen als de "Leraar".
Het Conceptuele Model te behandelen als de "Leerling".
De Geverifieerde Conceptuele Tokens te behandelen als het distillatietrainingsvoorbeeld.

Algorithmus

TTS wisselt generatie af met modelupdates. Het proces voor elke speculatieronde is als volgt:

Concepteren: Het huidige conceptuele model ( $q_t$ ) genereert een canvas van $C$ tokens.
Verificatie: Het doelmodel ( $p$ ) evalueert het canvas in één enkele forward pass en bepaalt de acceptatielengte ( $\tau$ ) via standaard afwijzingssteekproeven.
Distillatieverlies: Voordat de volgende ronde begint, wordt het conceptuele model bijgewerkt met een enkele gradiëntstap op een distillatieverliesfunctie:
$L_t(q) = \tilde{KL}(p \parallel q) + \lambda \tilde{KL}(q_t \parallel q)$
- De eerste term benadert de Kullback-Leibler (KL)-divergentie tussen de distributie van het doelmodel en de nieuwe conceptuele distributie over het canvas.
- De tweede term is een regularisatiecomponent die voorkomt dat het conceptuele model te ver afwijkt van zijn vorige staat ( $q_t$ ).
- Positie-afhankelijke gewichten ( $w_k$ ) worden toegepast, waarbij prioriteit wordt gegeven aan eerdere tokens in het canvas.
Update: De parameters van het conceptuele model worden bijgewerkt ( $q_{t+\tau} \leftarrow q_t - \eta \nabla L_t$ ).

Systeemoptimalisaties

Om de afweging tussen verbeterde acceptatielengte en de latentie-overhead van gradiëntupdates te beheersen, hanteert TTS:

Gestreepte Updates: Gradiëntupdates worden uitgevoerd om de $S$ rondes in plaats van elke ronde, waardoor de rekenkosten worden afgevlakt.
Asynchrone Pipelining: Updates worden uitbesteed aan een toegewijd CUDA-stream dat parallel loopt met de daaropvolgende $S-1$ generatierondes, waardoor de latentie wordt verborgen voor het kritieke pad.

3. Belangrijkste Bijdragen

Diagnose van Verslechtering: De auteurs tonen aan dat de effectiviteit van huidige speculatoren verslechtert met de generatielengte als gevolg van een mismatch tussen de trainingsdistributie van het conceptuele model op korte sequenties en de inferentiedistributie op lange sequenties.
TTS-kader: Zij stellen Test-Time Speculation voor, een online distillatiemethode die de verificatiestap gebruikt als supervisiessignaal om het conceptuele model aan te passen tijdens inferentie, zonder offline hertraining.
Uitgebreide Evaluatie: De methode wordt geëvalueerd over vijf state-of-the-art modellen (Qwen-3, Qwen-3.5, Llama3.1-families) en acht diverse benchmarks (waaronder AIME, LiveCodeBench en GPQA), waarbij consistente verbeteringen worden aangetoond.
Systeemintegratie: De auteurs implementeren TTS binnen het SGLang-inferentiekader, waarbij ze uitdagingen op systeemniveau aanpakken zoals kerneldifferentiatie en CUDA-graph-synchronisatie.

4. Experimentele Resultaten

Verbetering Acceptatielengte: TTS verbetert de gemiddelde acceptatielengtes met maximaal 72% en gemiddeld 41% ten opzichte van DFlash, en met maximaal 67% (gemiddeld 34%) ten opzichte van EAGLE-3.
Schalen met Lengte: De voordelen van TTS schalen met de generatielengte. Bijvoorbeeld, op de AIME 2024-dataset groeit de verbetering ten opzichte van DFlash van 15% in de eerste 0–10K tokens naar 183% in het bereik van 20–30K tokens.
Doorvoer: Hoewel frequente updates (stapgrootte $S=1$ ) de acceptatielengte maximaliseren, bereikt een stapgrootte van $S=5$ de beste doorloopsnelheidsverhoging (tot 1,71 $\times$ ten opzichte van DFlash) door de adaptatiefrequentie in evenwicht te brengen met de update-overhead.
Generalisatie: TTS is effectief over verschillende modelgroottes (4B tot 122B) en architecturen (Dense en MoE), en compenseert met name voor speculatoren die zijn getraind op korte contexten (bijvoorbeeld EAGLE-3 met 2K context) wanneer deze worden toegepast op doelen met veel grotere contextvensters.

5. Betekenis en Beweringen

Het artikel beweert dat TTS fundamenteel de beperking van speculatieve decoding in real-world scenario's met lange responsen aanpakt. Door het conceptuele model tijdens het generatieproces aan te passen, sluit TTS de kloof tussen trainings- en inferentiedistributies, waardoor speculatieve decoding effectief blijft zelfs voor outputs die tientallen duizenden tokens beslaan.

De auteurs benadrukken dat TTS geen aannames vereist over de structuur van de verzoekstroom (in tegenstelling tot eerdere online methoden die afhankelijk zijn van domeinspecifieke buffers) en direct werkt bovenop bestaande, publieke state-of-the-art speculatoren. Dit maakt TTS een praktische oplossing voor het handhaven van een hoge inferentie-doorvoer in productieomgevingen waar generatie van lange vormen (bijvoorbeeld code, redenering, contentcreatie) dominant is. Het werk wordt gepresenteerd als een noodzakelijke evolutie om speculatieve decoding levensvatbaar te houden naarmate LLM-toepassingen verschuiven naar langere contextvensters.

Test-Time Speculation