Ursprüngliche Autoren: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Veröffentlicht 2026-06-02✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen sehr talentierten Künstler, der ein Meisterwerk malen kann, indem er mit einer leeren Leinwand beginnt und nach und nach Details hinzufügt, bis das Bild fertig ist. Genau so funktionieren Diffusion Language Models (DLMs). Im Gegensatz zu traditionellen KI-Schreibern, die Sätze Wort für Wort aufbauen (wie das Stapeln von Ziegelsteinen), beginnen diese Modelle mit einem wirren Durcheinander aus „Rauschen“ (wie dem Flimmern eines alten Fernsehers) und „entrauschen“ es dann Schritt für sich Schritt, um eine kohärente Geschichte oder Lösung zu enthüllen.

Die Arbeit stellt eine neue Trainingsmethode namens d2 vor, die lehrt, wie diese Künstler schwierige Rätsel (wie Mathematikaufgaben oder Logikspiele) viel besser lösen können. Hier ist die Aufschlüsselung, wie es funktioniert, unter Verwendung einfacher Analogien.

Das Problem: Der „blinde“ Kritiker

Um einer KI das logische Denken beizubringen, nutzen Forscher Reinforcement Learning (RL). Betrachten Sie dies als ein Spiel, bei dem die KI versucht, ein Rätsel zu lösen, und ein „Kritiker“ (ein Belohnungssystem) ihr eine Punktzahl gibt. Wenn die KI eine gute Punktzahl erhält, lernt sie, dies erneut zu tun.

Es gibt jedoch einen Haken bei Diffusionsmodellen. Um effektiv zu lernen, muss die KI wissen, wie wahrscheinlich es war, genau diese spezifische Sequenz von Wörtern zu generieren.

Für traditionelle KI (Autoregressiv): Es ist wie das Schreiben eines Briefes. Man weiß genau, was man zuerst, als zweites und als drittes geschrieben hat. Die Berechnung der „Wahrscheinlichkeit“ ist einfach und schnell.
Für Diffusion-KI: Es ist wie das Beobachten einer Skulptur, die aus einem Steinblock hervorgeht. Die KI nimmt tausende winzige Anpassungen vor. Um die exakte Wahrscheinlichkeit der fertigen Statue zu kennen, müsste man theoretisch das Video zurückspulen und jeden einzelnen Frame des Bildhauprozesses immer wieder abspielen. Dies für jeden Trainingsschritt zu tun, ist rechnerisch unmöglich (zu langsam und zu teuer).

Da sie diesen „Score“ nicht genau berechnen konnten, haben bisherige Methoden nur geschätzt, was zu schlechten Denkfähigkeiten führte.

Die Lösung: d2 (Der smarte Punktezähler)

Die Autoren entwickelten d2, ein Framework, das wie ein super-effizienter Punktezähler fungiert. Es ermittelt die „Wahrscheinlichkeit“ der Reise der KI, ohne jedes Mal den ganzen Film abspielen zu müssen. Sie haben zwei verschiedene Werkzeuge für zwei verschiedene Arten von Künstlern gebaut:

Werkzeug 1: d2-AnyOrder (Der „magische Spiegel“)

Einige Diffusionsmodelle sind besonders; sie können das fertige Bild in jeder beliebigen Reihenfolge offenbaren. Man könnte zuerst die Augen malen, dann die Nase, dann den Hintergrund oder umgekehrt, und es funktioniert trotzdem.

Die Analogie: Stellen Sie sich vor, Sie haben einen magischen Spiegel. Anstatt den Malprozess Schritt für Schritt zu beobachten, können Sie das fertige Gemälde betrachten und sofort sehen, was der Künstler in jedem einzelnen Schritt gesagt hätte – alles auf einmal.
Das Ergebnis: Dieses Werkzeug, genannt d2-AnyOrder, berechnet den perfekten Score in einem einzigen Blick (einem Computerlauf). Es ist unglaublich genau und lässt die KI sehr schnell lernen.

Werkzeug 2: d2-StepMerge (Die „Chunking-Strategie“)

Die meisten populären Diffusionsmodelle (wie das berühmte LLaDA) können nicht in beliebiger Reihenfolge malen; sie müssen einer bestimmten Sequenz folgen. Sie besitzen keinen „magischen Spiegel“.

Die Analogie: Da wir nicht den ganzen Film auf einmal sehen können, teilen wir den Film in Häppchen (Chunks) auf. Anstatt jeden einzelnen Frame zu beobachten, schauen wir uns 10-Sekunden-Segmente des Films an. Wir schätzen den Score für jedes Segment und addieren sie auf.
Das Ergebnis: Dieses Werkzeug, genannt d2-StepMerge, ist eine Annäherung. Es ist nicht perfekt, aber die Autoren haben mathematisch bewiesen, dass der Fehler klein und kontrollierbar ist. Es tauscht ein kleines Stück Genauigkeit gegen einen massiven Gewinn an Geschwindigkeit ein, was es für Standardmodelle praktikabel macht.

Die Ergebnisse: Vom Anfänger zum Großmeister

Die Forscher testeten diese Werkzeuge an einigen der schwierigsten Rätsel für KIs:

Logikspiele: Sudoku und Countdown (ein Mathematikspiel).
Mathematikprobleme: GSM8K und MATH500 (Standard-Benchmarks für mathematisches Denken).

Das Ergebnis:

Ohne zusätzliche „Spickzettel“ (Supervised Fine-Tuning): Das d2-Framework brachte den Modellen bei, besser zu denken als jede bisherige Methode.
Den Wettbewerb schlagen: In den Sudoku- und Countdown-Tests erreichten die d2-trainierten Modelle Werte von nahezu 92 % bzw. 56 % und übertrafen damit die bisherigen besten Methoden, die bei etwa 22 % bzw. 42 % feststeckten.
Mathematische Meisterschaft: Auf komplexen Mathematik-Benchmarks setzte d2 einen neuen „State-of-the-Art“-Rekord und bewies, dass Diffusionsmodelle beim logischen Denken genauso gut sein können wie traditionelle Textgenerierungsmodelle, aber mit den zusätzlichen Vorteilen, schneller und kontrollierbarer zu sein.

Zusammenfassung

Die Arbeit besagt: „Wir haben einen Weg gefunden, wie Diffusion-KI-Modelle klar denken können.“

Sie stellten fest, dass die alte Art, die Arbeit der KI zu bewerten, zu langsam und ungenau war.
Sie erfanden d2, ein neues Bewertungssystem, das entweder perfekt genau (für spezielle Modelle) oder smart effizient (für Standardmodelle) ist.
Mit diesem neuen System lernten die KI-Modelle, Logik- und Mathematikrätsel signifikant besser zu lösen, ohne dass ihnen die Antworten vorab beigebracht werden mussten.

Kurz gesagt: d2 gibt Diffusionsmodellen die Fähigkeit, präzise auf ihren eigenen Denkprozess „zurückzublicken“, was es ihnen ermöglicht, aus ihren Fehlern zu lernen und wahre Experten im logischen Denken zu werden.

Technisches Resümee: d2: Verbesserung des Denkvermögens in Diffusions-Sprachmodellen mittels Trajektorien-Likelihood-Schätzung

Problemstellung

Diffusions-Sprachmodelle (DLMs), insbesondere maskierte DLMs, haben sich als kompetitive Alternativen zu autoregressiven (AR) Modellen aufgrund ihrer Steuerbarkeit und parallelen Generierungsfähigkeiten etabliert. Die Verbesserung ihrer Denkfähigkeiten mittels Reinforcement Learning (RL) bleibt jedoch eine Herausforderung. Während RL zum Standard für die Induktion von Denkprozessen in AR-Modellen geworden ist, erweist sich die Anwendung von RL auf DLMs als nicht trivial. Die Kernschwierigkeit liegt in der Policy-Gradient-Formulierung: Im Gegensatz zu AR-Modellen, bei denen Likelihoods sauber über Token-Positionen faktorisieren, ist die exakte Likelihood einer Diffusions-Trajektorie rechnerisch untraktabel. Eine naive Berechnung dieser Likelihoods erfordert $T$ Vorwärtsläufe (wobei $T$ die Anzahl der Diffusionsschritte ist), was Standard-Policy-Gradient-Methoden wie Group Relative Policy Optimization (GRPO) rechnerisch prohibitiv macht. Bestehende Approximationen führen oft zu einem signifikanten Bias, was suboptimale Policy-Updates zur Folge hat.

Methodik

Die Autoren führen d2 ein, ein Reasoning-Framework, das speziell für maskierte DLMs entwickelt wurde. Das Framework zentriert sich um einen neuen Policy-Gradient-Algorithmus, der aus der GRPO-Zielfunktion abgeleitet ist und explizit eine genaue Schätzung der Sampling-Trajektorien-Likelihoods erfordert. Um den rechnerischen Engpass zu adressieren, schlägt das Paper eine Familie von Schätzern vor, die auf unterschiedliche Modellklassen zugeschnitten sind:

1. Theoretische Grundlage

Die Autoren leiten eine GRPO-ähnliche Zielfunktion für maskierte DLMs ab, indem sie die Likelihood über die zeitlichen Latenten marginalisieren und Importance Sampling anwenden. Die resultierende Gradienten-Dekomposition (Theorem 3.1) hängt vom Verhältnis der Trajektorien-Likelihoods zwischen der aktuellen Policy $\pi_\theta$ und einer veralteten Policy $\pi_{old}$ ab. Die zentrale Herausforderung besteht darin, $\pi(x_{0:T})$ effizient zu evaluieren.

2. Die Schätzer

Das d2-Framework bietet zwei spezifische Schätzer basierend auf der Architektur des Modells:

d2-AnyOrder (Exakter Schätzer):
- Ziel: DLMs, die Any-Order-Dekodierung (AO-dLLMs) unterstützen. Diese Modelle erlauben es, Tokens in beliebiger Reihenfolge zu dekodieren, sofern die Attention-Mask die spezifischen Kausalitätsbeschränkungen (unabhängige Masken und Ordnungskausalität) respektiert.
- Mechanismus: Es konstruiert eine Sequenz der Länge $2L$ (Konkatenierung der reinen Tokens und Masken-Tokens) mit spezifischen Positions-Encodings und Attention-Masken. Dies ermöglicht es dem Modell, die exakten bedingten Likelihoods aller Tokens in einem einzelnen Vorwärtslauf zu berechnen.
- Limitierung: Standardmäßige maskierte DLMs (wie LLaDA) unterstützen nativ keine Any-Order-Dekodierung; ihre Trainingsziele garantieren nicht die notwendigen Attention-Eigenschaften für diesen Schätzer, um erwartungstreu (unbiased) zu sein.
d2-StepMerge (Approximativer Schätzer):
- Ziel: Standardmäßige maskierte Diffusionsmodelle (MDMs), die keine Any-Order-Dekodierung unterstützen.
- Mechanismus: Inspiriert durch Block-Composite-Likelihood, approximiert dieser Schätzer die Trajektorien-Likelihood, indem er die $T$ -Schritt-Trajektorie in $N$ aufeinanderfolgende Zeitsegmente unterteilt. Anstatt jeden Schritt zu evaluieren, berechnet er die Likelihood der innerhalb jedes Segments unmaskierten Tokens mittels eines einzelnen Vorwärtslaufs pro Segment.
- Trade-off: Er reduziert die Anzahl der Vorwärtsläufe von $T$ auf $N$ . Das Paper liefert eine theoretische obere Schranke (Theorem 4.1) für den Approximationsfehler (KL-Divergenz) und zeigt, dass der Fehler monoton mit steigendem $N$ abnimmt, wodurch ein Compute-Bias-Trade-off quantifiziert wird.

Zentrale Beiträge

d2-Framework: Ein prinzipielles RL-Post-Training-Framework für maskierte DLMs, das eine GRPO-Zielfunktion ableitet, welche von einer genauen Trajektorien-Likelihood-Schätzung abhängt.
d2-AnyOrder: Ein exakter Single-Pass-Likelihood-Schätzer für AO-dLLMs, der demonstriert, dass eine erwartungstreue Likelihood-Schätzung bestehende Baselines in RL-Settings signifikant übertrifft.
d2-StepMerge: Ein deterministischer Multi-Pass-Schätzer für Standard-MDMs mit analytisch beschränktem Approximationsfehler, der einen überlegenen Effizienz-Genauigkeits-Trade-off gegenüber bisherigen Methoden wie diffu-GRPO bietet.
Empirische Validierung: Umfangreiche Experimente zeigen, dass d2 State-of-the-Art-Leistung auf Reasoning-Benchmarks erreicht, ohne auf Supervised Chain-of-Thought (CoT) Fine-Tuning angewiesen zu sein.

Experimentelle Ergebnisse

Die Autoren evaluierten d2 auf Benchmarks für logisches Denken (Countdown, Sudoku) und mathematisches Denken (GSM8K, MATH500) sowie auf Coding-Aufgaben und Toxizitätssteuerung.

Performance auf AO-dLLMs: Bei Anwendung auf Modelle, die Any-Order-Dekodierung unterstützen (z. B. Eso-LM, Set Diffusion und ein maßgeschneidertes Any-Order Causal LLaDA), übertraf d2-AnyOrder Baselines wie DDPO und diffu-GRPO signifikant. Beispielsweise erreichte d2-AnyOrder bei GSM8K mit einem Qwen3-1.7B Base-Modell eine Genauigkeit von 67 % im Vergleich zu 63 % für diffu-GRPO.
Performance auf Standard-MDMs: Angewendet auf LLaDA-8B-Instruct (ein Standard-maskiertes DLM), setzte d2-StepMerge (mit $N=16$ $N = 16$ ) neue State-of-the-Art-Ergebnisse:
- Sudoku: 91,9 % (vs. 22,1 % für d1 mit SFT).
- Countdown: 56,6 % (vs. 42,2 % für d1).
- GSM8K: 85,0 % (vs. 82,1 % für d1).
- MATH500: 41,6 % (vs. 39,0 % für wd1).
  Besonders hervorzuheben ist, dass diese Ergebnisse ohne Supervised Fine-Tuning auf zusätzlichen CoT-Daten erzielt wurden, während einige Baselines solche Daten benötigten.
Generalisierung: Die Methode generalisierte auf andere Architekturen (Dream 7B) und Aufgaben (HumanEval, MBPP) und zeigte eine verbesserte Längen-Generalisierung im Vergleich zu diffu-GRPO.
Ablation: Experimente bestätigten, dass exakte Likelihoods (d2-AnyOrder) aussagekräftigere Signale liefern als Approximationen, und dass d2-StepMerge mit einem optimalen $N$ (z. B. 16) den Rechenaufwand und die Genauigkeit besser ausbalanciert als extreme Werte.

Bedeutung und Behauptungen

Das Paper behauptet, dass eine genaue Schätzung der Trajektorien-Likelihood zentral für den Erfolg von RL für das Denken in DLMs ist. Die Autoren argumentieren, dass bisherige Methoden deshalb keine optimale Leistung erzielten, weil sie auf verzerrten oder rechenintensiven Likelihood-Schätzungen basierten.

Theoretischer Beitrag: Die Arbeit liefert die erste rigorose Ableitung einer GRPO-Zielfunktion für maskierte DLMs und etabliert theoretische Schranken für den Approximationsfehler von Step-Merging-Strategien.
Praktische Auswirkung: d2 zeigt, dass Diffusionsmodelle durch gezieltes Training mit RL Denkfähigkeiten erreichen können, die mit autoregressiven Modellen konkurrieren oder diese sogar übertreffen, selbst ohne umfangreiche Supervised CoT-Daten.
Ausblick: Die Autoren merken an, dass die Anwendbarkeit von d2-AnyOrder derzeit auf Modelle beschränkt ist, die speziell für Any-Order-Dekodierung trainiert wurden. Sie betrachten die Entwicklung stärkerer, allgemeiner Any-Order dLLMs als natürlichen nächsten Schritt, um den exakten Schätzer voll auszuschöpfen.

Das Paper schließt mit der Feststellung, dass d2 einen neuen Stand der Technik für DLMs bei logischen und mathematischen Denkaufgaben setzt und die Wirksamkeit ihrer Likelihood-Schätzungsstrategien zur Freisetzung des Denkpotenzials von Diffusions-Sprachmodellen validiert.

d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation