Ursprüngliche Autoren: Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

Veröffentlicht 2026-05-14✓ Author reviewed ⓘ

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

CC BY 4.0

Ursprüngliche Autoren: Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, eine lange, komplexe Geschichte zu schreiben. Sie haben zwei Möglichkeiten, dies zu tun, aber beide haben einen gravierenden Mangel:

Der „Wort-für-Wort"-Schreiber (autoregressive Modelle): Dieser Schreiber ist unglaublich klug und präzise. Er denkt sorgfältig über jedes einzelne Wort nach, bevor er es schreibt, und stellt sicher, dass die Geschichte perfekt Sinn ergibt. Allerdings ist er langsam. Er muss ein Wort fertigstellen, seine Notizen prüfen, über das nächste nachdenken und es dann schreiben. Er kann nicht schneller werden, weil er Angst hat, einen Fehler zu machen.
Der „Batch-Schreiber" (Diffusionsmodelle): Dieser Schreiber versucht, einen ganzen Absatz auf einmal zu schreiben. Er ist sehr schnell! Aber da er mehrere Wörter gleichzeitig rät, ohne jedes einzelne sorgfältig zu prüfen, macht er oft logische Fehler, verliert den Handlungsstrang oder schreibt Unsinn.

Orthrus ist ein neues Framework, das das Beste aus beiden Welten vereint. Es erstellt ein „Dual-Stimmen"-System, mit dem Sie einen ganzen Absatz auf einmal schreiben können, ohne die Präzision des sorgfältigen Schreibers zu verlieren.

So funktioniert es, anhand einer einfachen Analogie:

Die Analogie vom „Architekten und dem Bauarbeiter"

Stellen Sie sich das KI-Modell als eine Baustelle mit zwei Arbeitern vor: dem Architekten und dem Bauarbeiter.

Der Architekt (das eingefrorene LLM): Dies ist das ursprüngliche, hochtrainierte, supersmartes Modell. Er ist der Experte, der genau weiß, wie das Gebäude aussehen sollte. Er ist „eingefroren", was bedeutet, dass er während dieses Prozesses seine Meinung nicht ändert oder nichts Neues lernt; er liefert lediglich den perfekten Bauplan.
Der Bauarbeiter (das Diffusionsmodul): Dies ist ein neuer, leichter Arbeiter, der dem Team hinzugefügt wurde. Seine Aufgabe ist es, schnell Ziegelsteine (Tokens) zu verlegen.

Wie sie zusammenarbeiten:

Die Szene setzen (Vorausfüllen): Zuerst liest der Architekt den gesamten Prompt (die Anweisungen) und erstellt eine perfekte, hochauflösende „Gedächtniskarte" (genannt KV-Cache). Diese Karte enthält den gesamten Kontext, der benötigt wird, um den Rest der Geschichte zu erstellen.
Der parallele Sprint (Generierung): Anstatt dass der Architekt einen Ziegelstein nach dem anderen verlegt, betrachtet der Bauarbeiter die Karte des Architekten und versucht, eine ganze Reihe von Ziegelsteinen (sagen wir, 32 Steine) auf einmal zu verlegen.
Die Sicherheitsprüfung (Konsens): Dies ist der magische Teil. Bevor die Arbeit des Bauarbeiters akzeptiert wird, überprüft der Architekt sofort den Batch des Bauarbeiters.
- Wenn der Bauarbeiter das nächste Wort gemäß der perfekten Logik des Architekten richtig geraten hat, sagt der Architekt: „Toll! Behalten Sie es!"
- Wenn der Bauarbeiter falsch geraten hat, sagt der Architekt: „Nein, das stimmt nicht", und korrigiert dieses spezifische Wort sofort.
- Der Vorgang wiederholt sich für den nächsten Batch.

Warum ist das eine große Sache?

Keine Speicher-Verschwendung: Normalerweise benötigen Sie bei zwei arbeitenden Modellen zwei Sätze von Speicher-Notizen. Orthrus ist clever, weil Bauarbeiter und Architekt exakt dieselbe Gedächtniskarte teilen. Der Bauarbeiter muss keine eigenen Notizen machen; er betrachtet einfach die des Architekten. Dies spart eine enorme Menge an Computerspeicher.
Kein Qualitätsverlust: Da der Architekt (das ursprüngliche intelligente Modell) das letzte Wort über jedes Wort hat, ist die Geschichte genauso gut, als hätte der Architekt sie wortweise geschrieben. Es gibt kein „Driften" oder Qualitätsverlust.
Massive Geschwindigkeit: Indem der Bauarbeiter 32 Ziegelsteine auf einmal verlegt und diese nur sofort überprüft, ist Orthrus bis zu 7,8-mal schneller als die langsame Wort-für-Wort-Methode.

Die Ergebnisse

Die Studie testete dies bei schwierigen Aufgaben wie dem Lösen von Matheproblemen (MATH-500), dem Schreiben von Code und dem Beantworten von Logikrätseln.

Geschwindigkeit: Es war deutlich schneller als Standardmodelle.
Genauigkeit: Es war genauso genau wie das ursprüngliche langsame Modell.
Effizienz: Es erforderte nur das Training eines winzigen Bruchteils (etwa 16 %) der Modellparameter, was es kostengünstig und einfach macht, es zu bestehenden KI-Systemen hinzuzufügen.

Kurz gesagt ist Orthrus wie die Einstellung eines Speed-Readers, der sofort die nächsten 30 Wörter einer Geschichte erraten kann, aber einen strengen Redakteur direkt neben sich hat, der jeden Fehler sofort korrigiert. Das Ergebnis ist eine Geschichte, die blitzschnell geschrieben wurde und dennoch perfekt genau ist.

Technische Zusammenfassung: Orthrus – Speichereffiziente parallele Token-Generierung via Dual-View-Diffusion

1. Problemstellung

Autoregressive (AR) Large Language Models (LLMs) dominieren derzeit die Verarbeitung natürlicher Sprache aufgrund ihrer hochfidenen Generierung und robuster Schlussfolgerungsfähigkeiten. Allerdings leiden sie während der Dekodierungsphase unter einer grundlegenden Ineffizienz: Die Token-Generierung ist strikt sequenziell. Während die Pre-Filling-Phase Prompts parallel verarbeitet, erfordert die Generierungsphase $N$ distincte Vorwärtsdurchläufe, um $N$ Token zu erzeugen. Diese sequenzielle Abhängigkeit erzeugt einen Engpass bei der Speicherbandbreite, was zu einer Unterauslastung der Hardware und hohen Inferenzlatenzen führt.

Im Gegensatz dazu bieten Diffusion Language Models (DLMs) eine native parallele Generierung, indem sie Blöcke von Token gleichzeitig entrauschen. Bestehende DLMs stoßen jedoch auf erhebliche Hürden:

Leistungsverschlechterung: Sie schneiden oft schlechter ab als AR-Modelle ähnlicher Skalierung, insbesondere bei komplexen Schlussfolgerungsaufgaben, aufgrund von „conditional drift", wobei die Annahme der bedingten Unabhängigkeit strikte kausale Abhängigkeiten verletzt.
Trainingskosten: Das Erreichen einer Baseline-Kohärenz erfordert oft massive Trainingsdatensätze (z. B. hunderte Milliarden Token) oder kontinuierliches Vortraining.
Architektonische Divergenz: Die Anpassung vortrainierter AR-Modelle an Diffusionsrahmenwerke verändert häufig die Basisgewichte, zerstört die exakte Vorhersageverteilung des ursprünglichen Modells und führt dazu, dass dessen Schlussfolgerungsfähigkeiten nicht erreicht werden.

Die Kernherausforderung besteht darin, die hochfidele kausale Konditionierung von AR-Modellen mit der parallelen Dekodierungsgeschwindigkeit von Diffusionsmodellen zu vereinen, ohne eines davon zu opfern.

2. Methodik: Die Orthrus-Architektur

Orthrus schlägt ein Dual-Architektur-Framework vor, das diese Paradigmen innerhalb eines einzigen Transformers vereint. Anstatt den AR-Rückgrat zu ersetzen, erweitert Orthrus ein eingefrorenes, vortrainiertes AR-Modell um ein leichtgewichtiges, trainierbares Diffusionsmodul.

2.1 Vereinigte Dual-View-Aufmerksamkeit

Die Architektur führt zwei distincte Aufmerksamkeitspfade ein, die über einen gemeinsamen Key-Value (KV)-Cache operieren:

Der eingefrorene AR-Kopf (Blauer Pfad): Dieser Pfad bleibt strikt eingefroren. Seine einzige Funktion besteht darin, den Kontext während der Pre-Filling-Phase zu verarbeiten, um hochfidele, kausale KV-Repräsentationen ( $K_{AR}, V_{AR}$ ) zu konstruieren. Er fungiert als „Lehrer" für die exakte Vorhersageverteilung.
Der trainierbare Diffusionskopf (Roter Pfad): Ein leichtgewichtiges Modul (initialisiert aus AR-Entsprechungen) wird neben die AR-Aufmerksamkeitsköpfe injiziert. Es ist speziell für die hochgeschwindigkeitsparallele Generierung ausgelegt.

2.2 Training: Dual-Pass-Block-Masking

Das Training konzentriert sich darauf, die parallelen Vorhersagen der Diffusionsansicht mit der exakten Zielverteilung des eingefrorenen AR-Modells in Einklang zu bringen.

Datenkonstruktion: Für eine Sequenz werden zufällige Blöcke der Länge $K$ ausgewählt. Das erste Token des Blocks wird als sichtbarer „Anker" beibehalten, während die folgenden $K-1$ Token durch <mask>-Token ersetzt werden.
Aufmerksamkeitsmechanismus: Der Diffusionskopf verarbeitet diese korrupten Blöcke unter Verwendung einer spezialisierten Block-Maske ( $M_{diff}$ $M_{d i f f}$ ). Diese Maske erzwingt zwei Regeln:
1. Kausaler Kontext: Positionen im Block achten kausal auf den sauberen AR-Kontext, der dem Blockanker vorausgeht.
2. Bidirektionaler Block: Positionen innerhalb desselben maskierten Blocks achten bidirektional aufeinander, was eine parallele Kontextaggregation ermöglicht.
Zielsetzung: Der Diffusionskopf minimiert die forward KL-Divergenz gegenüber der vollständigen Vorhersageverteilung des eingefrorenen AR-Kopfes. Gradienten fließen ausschließlich durch das Diffusionsmodul, wodurch der AR-Rückgrat unberührt bleibt.

2.3 Inferenz: Exakte Verteilungsanpassung via Intra-Model-Konsens

Orthrus erreicht eine parallele Generierung ohne verteilungsbedingte Drift durch einen Konsensmechanismus:

Parallele Projektion: Der Diffusionskopf nimmt den aktuellen Anker-Token und $K-1$ Masken entgegen und verarbeitet sie in einem einzigen Vorwärtsdurchlauf, um gleichzeitig $K$ Kandidaten-Token zu projizieren.
Strukturelle Validierung: Der projizierte Block wird sofort durch den eingefrorenen AR-Kopf geleitet. Da der AR-Kopf den vollständig gefüllten Block sieht, berechnet er die exakten Zielwahrscheinlichkeiten für alle $K$ Positionen in einem einzigen Durchlauf.
Konsens & Commitment: Die Architektur führt eine strikte links-nach-rechts-Evaluierung durch. Ein projizierter Token wird nur akzeptiert, wenn er mit der greedy-Vorhersage des eingefrorenen AR-Kopfes übereinstimmt. Tritt bei Index $j$ eine Abweichung auf, commitet das System den synchronisierten Präfix bis $j-1$ , fügt den exakten AR-Korrektur-Token an und kürzt den Cache. Dies garantiert eine verlustfreie Inferenz und stellt sicher, dass die Ausgabe strikt der Vorhersageverteilung des Basismodells entspricht.

3. Hauptbeiträge

Neuartiges Dual-Architektur-Framework: Orthrus integriert ein paralleles Diffusionsmodul in einen Standard-AR-Transformer, wodurch beide Ansichten über einen gemeinsamen KV-Cache operieren können, ohne redundante historische KV-Cache-Speicherung.
Verlustfreie Inferenz-Garantie: Durch die Anwendung eines Intra-Model-Konsensmechanismus bewahrt Orthrus die exakte Vorhersageverteilung des Basis-LLMs und stellt eine strikt verlustfreie Generierung sicher, die frühere Diffusionsanpassungen übertrifft.
Signifikante Inferenzbeschleunigung: Durch die native Ausnutzung des Diffusionskopfes für die parallele Token-Generierung durchbricht Orthrus den sequenziellen Engpass und liefert eine Beschleunigung von bis zu 7,8×.
Extreme Parameter- und Speichereffizienz: Die Integration ist leichtgewichtig. Parallele Fähigkeiten werden durch Fine-Tuning von nur ~16% der gesamten Modellparameter injiziert, unter Verwendung von weniger als 1 Mrd. Token (erfordert weniger als 24 Stunden auf einem einzelnen 8xH200-Knoten).

4. Experimentelle Ergebnisse

Die Autoren evaluierten Orthrus an der Qwen3-Modellfamilie (1,7 Mrd., 4 Mrd. und 8 Mrd. Parameter) über mathematische Schlussfolgerung (GSM8K, MATH-500, AIME) und Code-Generierung (HumanEval, MBPP) Benchmarks hinweg.

Effizienz: Orthrus erreichte einen durchschnittlichen Tokens Per Forward Pass (TPF) von 5,39 beim 8B-Modell, was Beschleunigungen im Bereich von 3,07× bis 7,83× je nach Aufgabe und Temperatureinstellungen bedeutet.
Genauigkeit: Im Gegensatz zu Anpassungsmethoden, die Leistungseinbußen erleiden, erreichte Orthrus die exakte Zero-Shot-Genauigkeit des Basis-Qwen3-8B-Modells. Beispielsweise erreichte Orthrus auf MATH-500 eine Genauigkeit von 86,2 %, wohingegen state-of-the-art Diffusionsanpassungen wie Fast-dLLM-v2 einen Rückgang von 11,1 Punkten erlitten (75,1 % vs. 86,2 % Baseline).
Vergleich mit Spekulativer Dekodierung: Im Vergleich zu externen Methoden der spekulativen Dekodierung (EAGLE-3, DFlash) erreichte Orthrus eine signifikant höhere durchschnittliche Akzeptanzlänge (11,7 auf MATH-500 vs. 7,9 für DFlash und 3,5 für EAGLE-3), da keine separaten, redundanten KV-Caches für ein Drafter-Modell aufrechterhalten werden müssen.

5. Bedeutung und Behauptungen

Die Arbeit behauptet, dass Orthrus den Trade-off zwischen autoregressiver Generierungsfidelität und diffusionsbasierter Parallelität grundlegend versöhnt.

Strukturelle Vereinigung: Durch die Entkopplung der parallelen Generierung von sequenziellen Zwängen, während sie gleichzeitig in eingefrorenen, hochfidenen AR-Repräsentationen verankert wird, eliminiert Orthrus die „distributional drift", die andere Diffusionsansätze plagt.
Skalierbarkeit und Plug-and-Play: Das Framework wird als hochskalierbare Lösung präsentiert, die nahtlos an jedes hochwertige bestehende Open-Source-AR-Modell angepasst werden kann, um parallelen Durchsatz zu ermöglichen, ohne exzellente Schlussfolgerungsfähigkeiten zu opfern.
Produktionsfähigkeit: Mit einem $O(1)$ -Speicher-Cache-Overhead und minimalen Parametererweiterungen bietet Orthrus einen praktischen, speichereffizienten Weg zur Bereitstellung von High-Throughput-LLMs und vermeidet die Rechenkosten des Neutrainings massiver Diffusionsmodelle von Grund auf.

Die Autoren schließen, dass Orthrus eine strikt verlustfreie Inferenzbeschleunigung liefert und einen neuen State-of-the-Art für die parallele Generierungsfidelität darstellt.

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion