Ursprüngliche Autoren: Avinash Kumar, Sujay Sanghavi, Poulami Das

Veröffentlicht 2026-05-12✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Avinash Kumar, Sujay Sanghavi, Poulami Das

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das große Problem: Das „rasende Auto", das den Weg verliert

Stellen Sie sich vor, Sie versuchen, eine sehr lange Geschichte (wie einen Roman) mit einem brillanten, aber langsam denkenden Autor (dem Zielmodell) zu schreiben. Um Zeit zu sparen, stellen Sie einen schnellen, energiegeladenen Praktikanten (das Entwurfsmodell) ein, der die nächsten paar Sätze errät, bevor der Autor sie überhaupt gelesen hat.

In der Welt der KI nennt man dies Spekulatives Decodieren. Der Praktikant errät einen Absatz, und der Autor prüft ihn schnell. Wenn der Praktikant richtig liegt, sagt der Autor einfach „Gut gemacht!" und fährt fort, wobei er sich die mühevolle Arbeit spart, diese Wörter von Grund auf neu zu schreiben. Wenn der Praktikant falsch liegt, muss der Autor anhalten, den Fehler korrigieren und von vorne beginnen.

Der Haken:
Das Papier entdeckte einen gravierenden Mangel in der Art und Weise, wie diese „Praktikanten" trainiert werden.

Das Training: Die Praktikanten werden an kurzen Geschichten (wie Tweets oder kurzen E-Mails) trainiert. Sie sind hervorragend darin, das nächste Wort in einem 200-Wörter-Satz zu erraten.
Die Realität: In der echten Welt bitten Menschen die KI, lange Berichte, Code oder Geschichten zu schreiben, die Tausende von Wörtern lang sind.

Je länger die Geschichte wird, desto mehr gerät der Praktikant in Verwirrung. Da er nur an kurzen Sätzen trainiert wurde, verliert er seinen „Gedankenfluss", sobald der Text wächst. Er beginnt, Wörter zu erraten, die nicht in den langen Kontext passen.

Das Ergebnis: Der Autor muss fast alle Vermutungen des Praktikanten verwerfen. Statt Zeit zu sparen, verlangsamt sich der Prozess, weil der Autor ständig anhalten muss, um den Praktikanten zu korrigieren. Das Papier nennt dies das „Akzeptanzmaß", das auf fast 1 absinkt (was bedeutet, dass der Praktikant im Grunde nutzlos ist).

Die Lösung: „Test-Time Speculation" (TTS)

Die Autoren schlagen eine clevere Lösung vor, die Test-Time Speculation (TTS) genannt wird. Anstatt für jeden Auftrag einen neuen Praktikanten einzustellen, lernen sie denselben Praktikanten, sich während der Arbeit anzupassen.

Die Analogie: Die Live-Coaching-Sitzung
Stellen Sie sich vor, der Praktikant schreibt die Geschichte, und der Autor prüft sie.

Der alte Weg: Der Praktikant errät 10 Wörter. Der Autor prüft sie. Wenn sie falsch sind, korrigiert der Autor sie und fährt fort. Der Praktikant lernt nichts aus dem Fehler, weil er nie auf eine Weise erfahren wird, warum er falsch lag, die ihm für den nächsten Satz hilft.
Der TTS-Weg: Jedes Mal, wenn der Autor die Arbeit des Praktikanten prüft, sagt der Autor nicht nur „Richtig" oder „Falsch". Der Autor nutzt diesen Moment, um dem Praktikanten eine Mini-Lektion zu erteilen.
- Der Autor sagt: „Du hast 'Katze' erraten, aber in dieser spezifischen langen Geschichte sollte das Wort 'Hund' sein. Hier ist die genaue Wahrscheinlichkeitsverteilung, die ich verwendet habe."
- Der Praktikant aktualisiert sofort sein Gehirn (seine interne Mathematik) basierend auf dieser spezifischen Lektion.
- Jetzt, wenn der Praktikant den nächsten Satz von Wörtern errät, ist er etwas schlauer und besser auf die aktuelle Stimmung des Autors und die lange Geschichte der Erzählung abgestimmt.

Warum ist das besonders?
Normalerweise muss man ein Modell tagelang neu trainieren, um es zu verbessern. TTS tut dies sofort, während die Geschichte geschrieben wird. Es nutzt den „Verifizierungsschritt" (den der Autor ohnehin durchführen muss) als kostenloses Trainingssignal. Es ist wie ein Schüler, der eine neue Sprache lernt, indem er ein Gespräch mit einem Lehrer führt, der ihn in Echtzeit korrigiert und ihn bis zum Ende des Gesprächs fließend macht.

Die Ergebnisse: Je länger man geht, desto schneller wird es

Das Papier testete dies an verschiedenen Arten von „Autoren" (KI-Modellen) und „Praktikanten" (Spekulatoren) bei schwierigen Aufgaben wie dem Lösen von Matheaufgaben, dem Schreiben von Code und dem Beantworten von Wissenschaftsfragen.

Die Verbesserung: Durch die Verwendung von TTS wurden die „Praktikanten" viel besser darin, die richtigen Wörter zu erraten, je länger die Geschichte wurde.
Die Zahlen: Im Durchschnitt akzeptierte das System 41 % mehr der Vermutungen des Praktikanten. In einigen Fällen war es bis zu 72 % besser als die bisherigen besten Methoden.
Der Trend: Je länger der Text wird, desto besser funktioniert TTS. Während andere Methoden nach einigen tausend Wörtern versagen, wird TTS mit fortschreitender Generierung sogar genauer, da der Praktikant kontinuierlich lernt und sich im laufenden Betrieb anpasst.

Zusammenfassung

Stellen Sie sich frühere Methoden wie einen schnellen Läufer vor, der nur für einen 100-Meter-Sprint gut ist. Wenn man ihn einen Marathon laufen lässt, bricht er zusammen.

Test-Time Speculation ist wie das Geben eines Trainers an diesen Läufer, der neben ihm herläuft und bei jedem einzelnen Schritt Korrekturen und strategische Anpassungen zuflüstert. Der Läufer wird weniger müde, bleibt auf dem richtigen Weg, und das gesamte Team beendet den Marathon viel schneller.

Das Papier beweist, dass wir die KI schnell und effizient halten können, selbst beim Schreiben sehr langer Dokumente, indem wir der KI erlauben, „während der Arbeit" während des Generierungsprozesses zu lernen.

Technische Zusammenfassung: Test-Time Speculation (TTS)

1. Problemstellung

Die Arbeit identifiziert eine kritische Einschränkung aktueller State-of-the-Art-Methoden für spekulatives Decodieren (wie DFlash, EAGLE-3 und PARD) bei der Anwendung auf Aufgaben mit langen Antworten. Während spekulatives Decodieren die Inferenz von Large Language Models (LLM) beschleunigt, indem ein schnelles „Draft"-Modell verwendet wird, um Token zu generieren, und ein langsameres „Target"-Modell diese verifiziert, hängt seine Effizienz stark von der Akzeptanzlänge ab – der Anzahl aufeinanderfolgender Draft-Token, die vom Target-Modell pro Runde akzeptiert werden.

Die Autoren stellen fest, dass sich die Akzeptanzlängen bestehender Spekulatoren mit zunehmender Generierungslänge signifikant verschlechtern. Bereits innerhalb weniger tausend Ausgabetoken fallen die Akzeptanzlängen oft auf Werte nahe 1 (z. B. 1,1), wodurch jegliche Beschleunigungsvorteile effektiv eliminiert werden. Diese Verschlechterung tritt auf, weil State-of-the-Art-Spekulatoren offline auf kurzen Sequenzen (typischerweise $\le$ 2K Token) trainiert werden, was zu einer Verteilungsfehlanpassung führt, wenn sie während der Inferenz gezwungen sind, das Target-Modell auf viel längeren Sequenzen (z. B. 20K–32K Token) zu approximieren. Mit fortschreitender Generierung weichen die Vorhersagen des Draft-Modells zunehmend von der immer selbstbewussteren Verteilung des Targets ab, was zu häufigen Ablehnungen führt.

2. Methodik: Test-Time Speculation (TTS)

Um diese Verteilungsfehlanpassung zu adressieren, schlagen die Autoren Test-Time Speculation (TTS) vor, einen Online-Distillationsansatz, der das Draft-Modell während des Inferenzprozesses in Echtzeit anpasst.

Kern-Erkenntnis

Die entscheidende Erkenntnis ist, dass der Standard-Schritt der Verifikation beim spekulativen Decodieren bereits das notwendige Supervisionssignal für die Anpassung ohne zusätzliche Kosten generiert. In jeder Runde berechnet das Target-Modell seine vollständige Wahrscheinlichkeitsverteilung über die Draft-Token. TTS nutzt dies, indem es behandelt:

Das Target-Modell als „Lehrer".
Das Draft-Modell als „Schüler".
Die Verifizierten Draft-Token als Distillations-Trainingsstichprobe.

Algorithmus

TTS verknüpft Generierung mit Modell-Updates. Der Prozess für jede Spekulationsrunde ist wie folgt:

Drafting: Das aktuelle Draft-Modell ( $q_t$ ) generiert eine Leinwand von $C$ Token.
Verifikation: Das Target-Modell ( $p$ ) bewertet die Leinwand in einem einzigen Vorwärtsdurchlauf und bestimmt die Akzeptanzlänge ( $\tau$ ) mittels Standard-Rejection-Sampling.
Distillationsverlust: Vor der nächsten Runde wird das Draft-Modell unter Verwendung eines einzelnen Gradientenschritts auf einer Distillations-Verlustfunktion aktualisiert:
$L_t(q) = \tilde{KL}(p \parallel q) + \lambda \tilde{KL}(q_t \parallel q)$
- Der erste Term approximiert die Kullback-Leibler-Divergenz (KL-Divergenz) zwischen der Verteilung des Targets und der neuen Draft-Verteilung über die Leinwand.
- Der zweite Term ist eine Regularisierungskomponente, die verhindert, dass das Draft-Modell zu weit von seinem vorherigen Zustand ( $q_t$ ) abweicht.
- Positionsabhängige Gewichte ( $w_k$ ) werden angewendet, wobei früheren Token in der Leinwand Priorität eingeräumt wird.
Update: Die Parameter des Draft-Modells werden aktualisiert ( $q_{t+\tau} \leftarrow q_t - \eta \nabla L_t$ ).

System-Optimierungen

Um den Kompromiss zwischen verbesserter Akzeptanzlänge und der Latenz-Overhead von Gradienten-Updates zu managen, setzt TTS ein:

Gestaffelte Updates: Gradienten-Updates werden alle $S$ Runden statt in jeder Runde durchgeführt, um die Rechenkosten zu amortisieren.
Asynchrones Pipelining: Updates werden auf einen dedizierten CUDA-Stream ausgelagert, der parallel zu den folgenden $S-1$ Generierungsrunden läuft und die Latenz vom kritischen Pfad verbirgt.

3. Hauptbeiträge

Diagnose der Verschlechterung: Die Autoren zeigen nach, dass die Wirksamkeit aktueller Spekulatoren mit der Generierungslänge aufgrund einer Fehlanpassung zwischen der Trainingsverteilung des Drafts auf kurzen Sequenzen und der Inferenzverteilung auf langen Sequenzen abnimmt.
TTS-Rahmenwerk: Sie schlagen Test-Time Speculation vor, eine Online-Distillationsmethode, die den Verifikationsschritt als Supervisionssignal nutzt, um das Draft-Modell zur Inferenzzeit anzupassen, ohne dass ein Offline-Neu-Training erforderlich ist.
Umfassende Evaluation: Die Methode wird an fünf State-of-the-Art-Modellen (Qwen-3, Qwen-3.5, Llama3.1-Familien) und acht verschiedenen Benchmarks (einschließlich AIME, LiveCodeBench und GPQA) evaluiert und zeigt konsistente Verbesserungen.
System-Integration: Die Autoren implementieren TTS innerhalb des SGLang-Inferenz-Frameworks und adressieren systemseitige Herausforderungen wie Kernel-Differentiation und CUDA-Graph-Synchronisation.

4. Experimentelle Ergebnisse

Verbesserung der Akzeptanzlänge: TTS verbessert die mittlere Akzeptanzlänge um bis zu 72 % und durchschnittlich 41 % gegenüber DFlash sowie um bis zu 67 % (durchschnittlich 34 %) gegenüber EAGLE-3.
Skalierung mit der Länge: Die Vorteile von TTS skalieren mit der Generierungslänge. Beispielsweise wächst die Verbesserung gegenüber DFlash im AIME-2024-Datensatz von 15 % in den ersten 0–10K Token auf 183 % im Bereich von 20–30K Token.
Durchsatz: Während häufige Updates (Stride $S=1$ ) die Akzeptanzlänge maximieren, erzielt ein Stride von $S=5$ die beste Durchsatzbeschleunigung (bis zu 1,71 $\times$ gegenüber DFlash), indem die Anpassungshäufigkeit mit dem Update-Overhead ausbalanciert wird.
Generalisierung: TTS ist bei verschiedenen Modellgrößen (4B bis 122B) und Architekturen (Dense und MoE) effektiv und kompensiert insbesondere Spekulatoren, die auf kurzen Kontexten trainiert wurden (z. B. EAGLE-3 mit 2K Kontext), wenn sie auf Targets mit deutlich größeren Kontextfenstern angewendet werden.

5. Bedeutung und Behauptungen

Die Arbeit behauptet, dass TTS die Einschränkung des spekulativen Decodierens in realen Szenarien mit langen Antworten grundlegend adressiert. Durch die Anpassung des Draft-Modells während des Generierungsprozesses schließt TTS die Lücke zwischen Trainings- und Inferenzverteilungen und stellt sicher, dass spekulatives Decodieren auch für Ausgaben über Zehntausende von Token hinweg effektiv bleibt.

Die Autoren betonen, dass TTS keine Annahmen über die Struktur des Anfragestroms erfordert (im Gegensatz zu früheren Online-Methoden, die auf domainspezifischen Puffern basieren) und direkt auf bestehenden, öffentlichen State-of-the-Art-Spekulatoren aufsetzt. Dies macht TTS zu einer praktischen Lösung zur Aufrechterhaltung eines hohen Inferenzdurchsatzes in Produktionsumgebungen, in denen die Generierung langer Texte (z. B. Code, Schlussfolgerungen, Inhaltserstellung) dominiert. Die Arbeit wird als notwendige Evolution präsentiert, um spekulatives Decodieren angesichts des Wandels von LLM-Anwendungen hin zu längeren Kontextfenstern weiterhin praktikabel zu halten.

Test-Time Speculation