Parallel Token Prediction for Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man Text schneller schreibt: Die „Parallel-Token-Vorhersage" (PTP)

Stell dir vor, du bist ein sehr schneller Schreiberling, der einen Roman schreibt. Aber es gibt ein Problem: Du darfst immer nur ein einziges Wort pro Satz schreiben, bevor du warten musst, bis dein Chef (der „Lehrer-Modell") sagt: „Ja, das war ein gutes Wort." Erst dann darfst du das nächste Wort schreiben.

Das ist genau so, wie heutige große KI-Sprachmodelle (wie ChatGPT) arbeiten. Sie schreiben autoregressiv: Wort für Wort, Schritt für Schritt. Das ist sehr genau, aber es dauert ewig, wenn man lange Texte braucht.

Die Autoren dieses Papers haben eine geniale Idee namens Parallel Token Prediction (PTP) entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar lustigen Vergleichen:

1. Das alte Problem: Der einsame Schreiberling

Stell dir vor, du musst eine lange Liste von Einkaufsartikeln aufschreiben.

Der alte Weg: Du schreibst „Milch". Warte. Schreib „Brot". Warte. Schreib „Eier". Warte.
Das Problem: Du verbringst 90% deiner Zeit mit Warten auf das nächste Wort.

2. Die neue Lösung: Der Zauberhut mit den Zufallszahlen

Die Forscher sagen: „Warum warten wir? Wir können alles auf einmal schreiben!"

Aber wie kann man mehrere Wörter auf einmal vorhersagen, ohne sich zu verirren? Normalerweise ist die Wahl eines Wortes wie ein Würfelspiel. Wenn du „Milch" wählst, ändert sich die Wahrscheinlichkeit für das nächste Wort.

Die geniale Idee von PTP:
Statt zu warten, bis das Wort gewählt ist, geben wir dem KI-Modell vorher schon die „Zufallszahlen" (die Würfelwürfe) mit auf den Weg.

Die Analogie: Stell dir vor, du hast einen Zauberhut. Normalerweise würfelst du erst, ziehst dann das Wort. Bei PTP sagst du dem Zauberhut: „Hier ist die Zufallszahl für das erste Wort, hier ist die für das zweite, hier ist die für das dritte."
Da die KI jetzt genau weiß, welche „Zufallszahl" für welches Wort gilt, kann sie alle Wörter auf einmal berechnen. Sie muss nicht mehr warten. Sie schreibt die ganze Liste „Milch, Brot, Eier" in einem einzigen, riesigen Schritt.

3. Der Trick: Wie passt das zusammen?

Man könnte denken: „Aber wenn ich das zweite Wort vorhersage, muss ich doch wissen, was das erste Wort ist!"
Die Forscher haben bewiesen, dass das nicht stimmt, wenn man die richtigen „Zufallszahlen" (die sie auxiliare Variablen nennen) benutzt.

Vergleich: Stell dir vor, du planst eine Reise. Normalerweise entscheidest du: „Ich fahre nach Berlin." Dann überlegst du: „Okay, von Berlin aus fahre ich nach Hamburg."
Mit PTP: Du hast einen Plan, der besagt: „Wenn ich den Zufallscode A habe, fahre ich nach Berlin. Wenn ich den Code B habe, fahre ich von Berlin nach Hamburg." Da du den Code B schon im Voraus kennst, kannst du die ganze Route (Berlin -> Hamburg) auf einmal auf den Zettel schreiben, ohne erst nach Berlin fahren zu müssen.

4. Was bringt das? (Die Geschwindigkeit)

Das Paper zeigt, dass diese Methode 2,4-mal schneller ist als das normale Schreiben.

Vorher: Der KI-Modell braucht 10 Sekunden, um einen Absatz zu schreiben.
Nachher: Mit PTP braucht es nur noch 4 Sekunden für denselben Text.

Das ist, als würde ein Schreiberling, der vorher nur ein Wort pro Minute schrieb, plötzlich einen ganzen Satz pro Minute schreiben können, ohne dabei Fehler zu machen.

5. Was ist mit Fehlern? (Die Korrektur)

Manchmal schreibt die KI trotzdem etwas Falsches, weil sie sich in der „Zufallszahl" geirrt hat. Dafür haben die Autoren einen cleveren Sicherheitsmechanismus entwickelt, den sie „Partielle Quadratische Dekodierung" nennen.

Die Analogie: Stell dir vor, du hast drei verschiedene Schreiberlinge, die gleichzeitig arbeiten. Einer schreibt „Milch", einer „Brot", einer „Eier".
Ein Kontrolleur (der große Lehrer-Modell) schaut sich die Ergebnisse an. Wenn er merkt: „Moment, 'Milch' war falsch, aber 'Brot' und 'Eier' waren richtig!", dann löscht er nur das erste Wort und behält die anderen.
Dank einer cleveren Technik müssen sie nicht alles neu schreiben. Sie nutzen die bereits geschriebenen Teile und füllen nur die Lücken. Das spart noch mehr Zeit.

Zusammenfassung

Die Forscher haben einen Weg gefunden, wie KI-Modelle nicht mehr Wort-für-Wort, sondern Wort-für-Wort-Gruppe schreiben können.

Das Geheimnis: Sie geben der KI die „Zufallszahlen" für die Zukunft schon im Voraus.
Das Ergebnis: Die KI wird viel schneller, bleibt aber genauso schlau und genau wie vorher.

Es ist, als hätte man dem Schreiberling einen Turbo-Booster verpasst, der es ihm erlaubt, mehrere Sätze gleichzeitig zu denken, aber trotzdem nur das richtige Wort auf den Papier zu schreiben. Das macht KI-Anwendungen in Zukunft viel flüssiger und schneller für uns alle!

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Parallel Token Prediction for Language Models" (veröffentlicht als Konferenzbeitrag bei ICLR 2026) auf Deutsch:

1. Problemstellung

Herkömmliche Large Language Models (LLMs) basieren auf autoregressiven Transformern, die Text sequenziell generieren. Bei jedem Vorwärtsschritt (Forward Pass) wird nur ein einzelnes Token vorhergesagt. Dies führt zu einem inhärenten Engpass in der Inferenzgeschwindigkeit, da die Vorhersage des nächsten Tokens $t_{i+1}$ zwingend das bereits generierte Token $t_i$ erfordert.
Bisherige Ansätze zur Beschleunigung, wie Speculative Decoding (Verwendung eines kleinen Draft-Modells) oder Discrete Diffusion, haben entweder immer noch sequentielle Komponenten oder treffen die Annahme, dass zukünftige Tokens unabhängig voneinander sind. Letzteres führt oft zu inkohärenten Sequenzen, da semantische und syntaktische Abhängigkeiten zwischen den Tokens ignoriert werden.

2. Methodik: Parallel Token Prediction (PTP)

Die Autoren schlagen Parallel Token Prediction (PTP) vor, ein Framework, das es ermöglicht, mehrere abhängige Tokens in einem einzigen Modellaufruf vorherzusagen. Der Kern der Methode liegt in einer fundamentalen Änderung des Zufallsmechanismus:

Verschiebung der Zufälligkeit: Anstatt Tokens nachträglich aus einer vorhergesagten Wahrscheinlichkeitsverteilung zu sampeln (Post-hoc Sampling), werden die Zufallsvariablen ( $u_i$ ) als Eingabe in das Modell gegeben.
Deterministische Funktion: Das Modell lernt nicht die Verteilung $P(t_i | t_{<i})$ , sondern die deterministische Funktion $f_P$ , die basierend auf dem Kontext und den Zufallsvariablen das Token auswählt:
$t_i = \text{Pick}(u_i, P(\cdot | t_{<i}))$
Da $u_i$ (ein Wert aus $U[0,1]$ ) zusammen mit dem Kontext $t_{<i}$ das Token $t_i$ eindeutig bestimmt, kann das Modell $u_i$ als Stellvertreter für $t_i$ nutzen, um $t_{i+1}$ vorherzusagen.
Architektur: Das Modell erhält neben dem bisherigen Text auch eine Sequenz von Zufallsvariablen $u_i, \dots, u_k$ als Eingabe.
Zwei Varianten:
1. O-PTP (One-Hot PTP): Das Modell sagt direkt das nächste Token vorher (One-Hot-Verteilung). Dies ist effizient für das Distillieren von bestehenden Modellen.
2. C-PTP (Categorical PTP): Das Modell sagt die vollständige Wahrscheinlichkeitsverteilung für das nächste Token vorher, indem es die eigene Zufallsvariable $u_k$ für die Vorhersage von $t_k$ zurückhält (maskiert). Dies ermöglicht das Training ohne Lehrer-Modell (Inverse Autoregressive Training), da die ursprüngliche bedingte Verteilung wiederhergestellt wird.

3. Theoretische Fundierung

Die Autoren beweisen zwei zentrale Theoreme:

Theorem 1: Ein einzelner PTP-Aufruf kann beliebige Abhängigkeiten zwischen Tokens darstellen. Die Zukunftstokens $t_k$ können als deterministische Funktion der Vergangenheit und der Zufallsvariablen $u_i, \dots, u_k$ dargestellt werden.
Theorem 2: Die Verteilung eines Tokens $t_k$ kann vollständig durch den Kontext und die vergangenen Zufallsvariablen $u_i, \dots, u_{k-1}$ bestimmt werden, ohne dass $u_k$ bekannt sein muss. Dies erlaubt es, die Verteilung parallel zu berechnen, während die Sampling-Entscheidung erst später getroffen wird.

4. Fehlerkorrektur und Decoding

Da Modelle mit begrenzter Kapazität nicht unendlich lange Sequenzen perfekt parallelisieren können, wird ein Fehlerkorrekturmechanismus benötigt:

Partial Quadratic Decoding: Anstatt alle möglichen Kombinationen von korrekten Tokens zu prüfen (was quadratisch skaliert), nutzt das System die Konfidenzschätzungen des PTP-Modells. Es werden mehrere Verzweigungen (Branches) parallel berechnet, wobei jede Verzweigung eine andere Anzahl von korrekten Tokens annimmt. Die Berechnung wird basierend auf der Wahrscheinlichkeit, dass ein Token akzeptiert wird, allokiert. Dies reduziert die Latenz erheblich im Vergleich zu herkömmlichem Speculative Decoding.

5. Ergebnisse

Die Experimente zeigen signifikante Verbesserungen:

Training ohne Lehrer: C-PTP konnte erfolgreich nur auf Daten trainiert werden (Inverse Autoregressive Training) und erreichte eine Perplexität, die mit autoregressiven Baseline-Modellen vergleichbar ist.
Distillation und Geschwindigkeit: Ein auf Code-Generierung (CodeContests) trainiertes O-PTP-Modell (basierend auf TinyLlama-1.1B) erreichte im Vergleich zu autoregressiven Draft-Modellen eine deutlich höhere Anzahl an akzeptierten Tokens pro Schritt.
Benchmark-Ergebnisse: Auf dem SpecBench (diverse Aufgaben wie Übersetzung, Zusammenfassung, Mathematik) wurde ein 7B-Parameter-Modell (Vicuna) feinabgestimmt.
- Speedup: Ein 2.4-facher Geschwindigkeitszuwachs (Wall-Clock-Speedup) im Vergleich zur Standard-Autoregression.
- Akzeptanzrate: Durchschnittlich 4.2 akzeptierte Tokens pro Speculative-Decoding-Schritt (im Vergleich zu typisch < 2 bei anderen Methoden).
- O-PTP übertraf dabei konkurrierende Methoden wie Eagle, Hydra und Medusa konsistent.

6. Bedeutung und Fazit

Das Paper demonstriert, dass der sequentielle Flaschenhals autoregressiver Transformer nicht inhärent ist. Durch die Umwandlung des Sampling-Prozesses in eine deterministische Funktion, die Zufallsvariablen als Eingabe nutzt, kann die Parallelität in der Inferenz massiv erhöht werden, ohne die Ausdruckskraft des Modells zu verlieren.

Praktische Relevanz: Die Methode ermöglicht Echtzeit-Anwendungen für LLMs durch drastisch reduzierte Latenz.
Zukunftsausblick: Die Autoren sehen Potenzial darin, große Modelle von Grund auf neu zu trainieren, die in langen Sequenzen „denken" können, und die Methode mit anderen Beschleunigungsstrategien zu kombinieren.

Zusammenfassend bietet PTP einen universellen Ansatz, der die Unabhängigkeitsannahmen früherer paralleler Methoden überwindet und eine effiziente, korrekte parallele Token-Generierung ermöglicht.

Parallel Token Prediction for Language Models

1. Das alte Problem: Der einsame Schreiberling

2. Die neue Lösung: Der Zauberhut mit den Zufallszahlen

3. Der Trick: Wie passt das zusammen?

4. Was bringt das? (Die Geschwindigkeit)

5. Was ist mit Fehlern? (Die Korrektur)

Zusammenfassung

1. Problemstellung

2. Methodik: Parallel Token Prediction (PTP)

3. Theoretische Fundierung

4. Fehlerkorrektur und Decoding

5. Ergebnisse

6. Bedeutung und Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers