Parallel Token Prediction for Language Models

Das Papier stellt Parallel Token Prediction (PTP) vor, ein Framework, das durch die Verschiebung der Zufälligkeit auf Eingangsvariablen mehrere Token in einem einzigen Vorwärtsdurchlauf deterministisch vorhersagt und so eine 2,4-fache Beschleunigung der Autogenerierung erreicht.

Felix Draxler, Justus Will, Farrin Marouf Sofian, Theofanis Karaletsos, Sameer Singh, Stephan Mandt

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man Text schneller schreibt: Die „Parallel-Token-Vorhersage" (PTP)

Stell dir vor, du bist ein sehr schneller Schreiberling, der einen Roman schreibt. Aber es gibt ein Problem: Du darfst immer nur ein einziges Wort pro Satz schreiben, bevor du warten musst, bis dein Chef (der „Lehrer-Modell") sagt: „Ja, das war ein gutes Wort." Erst dann darfst du das nächste Wort schreiben.

Das ist genau so, wie heutige große KI-Sprachmodelle (wie ChatGPT) arbeiten. Sie schreiben autoregressiv: Wort für Wort, Schritt für Schritt. Das ist sehr genau, aber es dauert ewig, wenn man lange Texte braucht.

Die Autoren dieses Papers haben eine geniale Idee namens Parallel Token Prediction (PTP) entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar lustigen Vergleichen:

1. Das alte Problem: Der einsame Schreiberling

Stell dir vor, du musst eine lange Liste von Einkaufsartikeln aufschreiben.

  • Der alte Weg: Du schreibst „Milch". Warte. Schreib „Brot". Warte. Schreib „Eier". Warte.
  • Das Problem: Du verbringst 90% deiner Zeit mit Warten auf das nächste Wort.

2. Die neue Lösung: Der Zauberhut mit den Zufallszahlen

Die Forscher sagen: „Warum warten wir? Wir können alles auf einmal schreiben!"

Aber wie kann man mehrere Wörter auf einmal vorhersagen, ohne sich zu verirren? Normalerweise ist die Wahl eines Wortes wie ein Würfelspiel. Wenn du „Milch" wählst, ändert sich die Wahrscheinlichkeit für das nächste Wort.

Die geniale Idee von PTP:
Statt zu warten, bis das Wort gewählt ist, geben wir dem KI-Modell vorher schon die „Zufallszahlen" (die Würfelwürfe) mit auf den Weg.

  • Die Analogie: Stell dir vor, du hast einen Zauberhut. Normalerweise würfelst du erst, ziehst dann das Wort. Bei PTP sagst du dem Zauberhut: „Hier ist die Zufallszahl für das erste Wort, hier ist die für das zweite, hier ist die für das dritte."
  • Da die KI jetzt genau weiß, welche „Zufallszahl" für welches Wort gilt, kann sie alle Wörter auf einmal berechnen. Sie muss nicht mehr warten. Sie schreibt die ganze Liste „Milch, Brot, Eier" in einem einzigen, riesigen Schritt.

3. Der Trick: Wie passt das zusammen?

Man könnte denken: „Aber wenn ich das zweite Wort vorhersage, muss ich doch wissen, was das erste Wort ist!"
Die Forscher haben bewiesen, dass das nicht stimmt, wenn man die richtigen „Zufallszahlen" (die sie auxiliare Variablen nennen) benutzt.

  • Vergleich: Stell dir vor, du planst eine Reise. Normalerweise entscheidest du: „Ich fahre nach Berlin." Dann überlegst du: „Okay, von Berlin aus fahre ich nach Hamburg."
  • Mit PTP: Du hast einen Plan, der besagt: „Wenn ich den Zufallscode A habe, fahre ich nach Berlin. Wenn ich den Code B habe, fahre ich von Berlin nach Hamburg." Da du den Code B schon im Voraus kennst, kannst du die ganze Route (Berlin -> Hamburg) auf einmal auf den Zettel schreiben, ohne erst nach Berlin fahren zu müssen.

4. Was bringt das? (Die Geschwindigkeit)

Das Paper zeigt, dass diese Methode 2,4-mal schneller ist als das normale Schreiben.

  • Vorher: Der KI-Modell braucht 10 Sekunden, um einen Absatz zu schreiben.
  • Nachher: Mit PTP braucht es nur noch 4 Sekunden für denselben Text.

Das ist, als würde ein Schreiberling, der vorher nur ein Wort pro Minute schrieb, plötzlich einen ganzen Satz pro Minute schreiben können, ohne dabei Fehler zu machen.

5. Was ist mit Fehlern? (Die Korrektur)

Manchmal schreibt die KI trotzdem etwas Falsches, weil sie sich in der „Zufallszahl" geirrt hat. Dafür haben die Autoren einen cleveren Sicherheitsmechanismus entwickelt, den sie „Partielle Quadratische Dekodierung" nennen.

  • Die Analogie: Stell dir vor, du hast drei verschiedene Schreiberlinge, die gleichzeitig arbeiten. Einer schreibt „Milch", einer „Brot", einer „Eier".
  • Ein Kontrolleur (der große Lehrer-Modell) schaut sich die Ergebnisse an. Wenn er merkt: „Moment, 'Milch' war falsch, aber 'Brot' und 'Eier' waren richtig!", dann löscht er nur das erste Wort und behält die anderen.
  • Dank einer cleveren Technik müssen sie nicht alles neu schreiben. Sie nutzen die bereits geschriebenen Teile und füllen nur die Lücken. Das spart noch mehr Zeit.

Zusammenfassung

Die Forscher haben einen Weg gefunden, wie KI-Modelle nicht mehr Wort-für-Wort, sondern Wort-für-Wort-Gruppe schreiben können.

  • Das Geheimnis: Sie geben der KI die „Zufallszahlen" für die Zukunft schon im Voraus.
  • Das Ergebnis: Die KI wird viel schneller, bleibt aber genauso schlau und genau wie vorher.

Es ist, als hätte man dem Schreiberling einen Turbo-Booster verpasst, der es ihm erlaubt, mehrere Sätze gleichzeitig zu denken, aber trotzdem nur das richtige Wort auf den Papier zu schreiben. Das macht KI-Anwendungen in Zukunft viel flüssiger und schneller für uns alle!