DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Künstler, der lernt, Bilder zu malen. Bisher hast du nur nach einem strengen Lehrbuch (dem ursprünglichen KI-Modell) geübt. Jetzt möchtest du aber nicht nur gut malen, sondern Bilder malen, die Menschen wirklich mögen – vielleicht lustige Hunde, perfekte Texte auf Schildern oder wunderschöne Sonnenuntergänge.

Das Problem beim Lernen durch Belohnung (Reinforcement Learning) bei solchen KI-Künstlern ist bisher gewesen: Es war wie ein Versuch, einen blinden Mann zu lehren, indem man ihm sagt, er soll rückwärts gehen, während er eigentlich vorwärts laufen muss. Das war kompliziert, langsam und oft chaotisch.

Die Forscher in diesem Papier haben eine neue, clevere Methode namens DiffusionNFT entwickelt. Hier ist die Erklärung in einfachen Worten:

1. Das alte Problem: Der umgekehrte Weg

Stell dir vor, das Erstellen eines Bildes durch die KI ist wie das Entwirren eines riesigen Knäuels aus Wolle.

Der alte Weg (Reverse Process): Die KI versucht, das Bild zu malen, indem sie den Knäuel von hinten nach vorne entwirrt. Um zu lernen, ob sie gut ist, musste sie den ganzen Weg zurückverfolgen, jedes einzelne Fädchen zählen und berechnen, wie wahrscheinlich jeder Schritt war. Das war extrem rechenintensiv und langsam. Es war, als würde man versuchen, ein Auto zu reparieren, indem man es rückwärts durch die Garage schiebt, nur um zu sehen, ob die Räder passen.

2. Die neue Lösung: Der Vorwärts-Weg (DiffusionNFT)

Die neuen Forscher sagen: "Warum versuchen wir nicht, direkt zu lernen, wie man den Knäuel erst verwickelt?"

Der neue Weg (Forward Process): Statt den Entwirrungsprozess zu optimieren, schauen wir uns an, wie das Bild verwackelt wird (das ist der "Vorwärtsprozess").
Die Analogie: Stell dir vor, du hast zwei Schüler.
- Schüler A malt ein Bild, das der Lehrer mag (ein "positives" Bild).
- Schüler B malt ein Bild, das der Lehrer nicht mag (ein "negatives" Bild).
- Die alte Methode hätte versucht, Schüler A zu belohnen und Schüler B zu ignorieren. Das führt aber oft dazu, dass Schüler A verrückt wird und nur noch seltsame Bilder malt.
- DiffusionNFT macht etwas Geniales: Es vergleicht Schüler A und Schüler B direkt miteinander. Es sagt: "Schau, Schüler A hat hier einen Strich anders gemacht als Schüler B. Genau diese Richtung müssen wir lernen!"

3. Die drei großen Vorteile (Warum ist das besser?)

Kein "Rechnen" nötig (Likelihood-Free):
Bei der alten Methode musste die KI ständig berechnen: "Wie wahrscheinlich ist es, dass ich genau dieses Bild mache?" Das ist wie ein Mathematik-Genie, das bei jedem Pinselstrich eine komplexe Formel lösen muss.
- Bei DiffusionNFT: Die KI braucht keine Formeln. Sie schaut einfach auf das Ergebnis. "Das Bild hier ist gut, das dort ist schlecht." Das ist viel schneller und effizienter.
Freiheit bei den Werkzeugen (Solver Flexibility):
Die alten Methoden waren wie ein Auto, das nur mit einem ganz bestimmten, langsamen Getriebe fahren konnte.
- Bei DiffusionNFT: Die KI kann jetzt jeden beliebigen "Fahrer" (Solver) benutzen. Sie kann mit einem schnellen Sportwagen fahren (hohe Geschwindigkeit) oder einem gemütlichen Bus. Das macht die Erstellung von Bildern viel schneller.
Kein "Zwilling" nötig (CFG-Free):
Normalerweise braucht die KI zwei Modelle: eines für den Befehl ("Mach ein Bild von einer Katze") und ein zweites, das kein Bild macht, nur um als Vergleich zu dienen. Das ist wie ein Lehrer, der immer einen Assistenten braucht, der das Gegenteil sagt.
- Bei DiffusionNFT: Die KI lernt den Unterschied zwischen "gut" und "schlecht" aus den Bildern selbst. Sie braucht keinen Assistenten mehr. Sie wird dadurch schlauer und braucht weniger Speicherplatz.

4. Das Ergebnis: Ein Super-Schüler

In den Tests haben die Forscher gezeigt, dass diese neue Methode unglaublich schnell ist.

Vergleich: Ein alter Schüler (FlowGRPO) brauchte 5 Stunden (oder 5.000 Schritte), um ein Bild zu malen, das zu 95 % gut war.
Unser neuer Schüler (DiffusionNFT): Braucht nur 1 Stunde (oder 1.000 Schritte) und erreicht 98 % Qualität.
Das ist wie ein Sprinter, der die gleiche Strecke in einem Viertel der Zeit läuft, aber noch schneller am Ziel ist.

Zusammenfassung

DiffusionNFT ist wie ein neuer, smarter Lehrer für KI-Künstler. Anstatt den Künstlern zu sagen, sie sollen rückwärts laufen und dabei komplizierte Mathematik betreiben, zeigt er ihnen einfach: "Schau dir das gute Bild an, schau dir das schlechte an, und lerne den Unterschied."

Das Ergebnis? Die KI lernt viel schneller, braucht weniger Rechenleistung und malt Bilder, die nicht nur technisch korrekt sind, sondern auch genau das tun, was wir uns wünschen – ohne dass wir komplexe Tricks oder doppelte Modelle brauchen.

Each language version is independently generated for its own context, not a direct translation.

Titel: DiffusionNFT: Online Diffusion Reinforcement mit Vorwärtsprozess

Veröffentlicht: ICLR 2026
Autoren: Kaiwen Zheng, Huayu Chen, Haotian Ye, et al. (Tsinghua University, NVIDIA, Stanford University)

1. Problemstellung

Online-Reinforcement-Learning (RL) hat sich als zentraler Mechanismus für das Nachtrainieren (Post-Training) von Large Language Models (LLMs) erwiesen, um Ausrichtung und reasoning-Fähigkeiten zu verbessern. Die Übertragung dieser Erfolge auf Diffusionsmodelle für die visuelle Generierung ist jedoch mit erheblichen Herausforderungen verbunden:

Nicht berechenbare Likelihoods: Im Gegensatz zu autoregressiven Modellen sind die exakten Likelihoods von Diffusionsmodellen nicht direkt berechenbar. Herkömmliche Policy-Gradient-Algorithmen (wie PPO oder GRPO) setzen jedoch eine berechenbare Wahrscheinlichkeitsverteilung voraus.
Limitationen bestehender Ansätze: Aktuelle Lösungen (z. B. FlowGRPO) umgehen dies, indem sie den inversen (Reverse-) Sampling-Prozess diskretisieren und als Multi-Schritt-Entscheidungsproblem formulieren. Dies führt jedoch zu fundamentalen Nachteilen:
1. Inkonsistenz mit dem Vorwärtsprozess: Die Fokussierung nur auf den inversen Prozess verletzt die Konsistenz mit dem zugrunde liegenden Fokker-Planck-Gleichung des Vorwärtsprozesses, was zu Degeneration führen kann.
2. Einschränkung bei Solvern: Die Datenerfassung ist oft auf erste Ordnung SDE-Sampler (Stochastic Differential Equations) beschränkt, was die Nutzung effizienterer ODE-Solver (Ordinary Differential Equations) oder höherer Ordnungen verhindert.
3. Komplexe Integration von CFG: Diffusionsmodelle nutzen stark Classifier-Free Guidance (CFG). Herkömmliche RL-Ansätze erfordern oft ein komplexes Zwei-Modell-Training (bedingt und unbedingte Modelle), was ineffizient ist.

2. Methodik: DiffusionNFT

Die Autoren stellen Diffusion Negative-aware Fine-Tuning (DiffusionNFT) vor, ein neues Online-RL-Paradigma, das die Optimierung direkt auf dem Vorwärtsprozess (Forward Process) durchführt, anstatt auf dem inversen Prozess.

Kernkonzepte:

Vorwärtsprozess-Optimierung: Statt den Sampling-Pfad als MDP (Markov Decision Process) zu betrachten, nutzt DiffusionNFT das Flow-Matching-Objektiv. Es definiert eine implizite Verbesserung durch den Kontrast zwischen „positiven" (belohnten) und „negativen" (unbelohnten) Generierungen.
Negative Awareness (NFT): Anstatt nur positive Daten zu nutzen (wie bei Rejection Fine-Tuning), werden beide Datensätze ( $D^+$ und $D^-$ ) genutzt, um eine Reinforcement Guidance ( $\Delta$ ) zu definieren. Diese Guidance zeigt die Richtung zur Verbesserung der Policy an.
Implizite Parametrisierung: Das Modell lernt nicht zwei separate Modelle für positive und negative Policies. Stattdessen wird eine einzelne Policy $v_\theta$ $v_{θ}$ optimiert, die implizit durch eine Kombination aus der alten Policy $v_{old}$ $v_{o l d}$ und der neuen Policy parametrisiert wird:
- Implizite positive Velocity: $v^+_\theta = (1-\beta)v_{old} + \beta v_\theta$
- Implizite negative Velocity: $v^-_\theta = (1+\beta)v_{old} - \beta v_\theta$
- Der Verlust wird minimiert, um $v_\theta$ in Richtung der optimalen Guidance zu bewegen, ohne den Sampling-Prozess selbst zu ändern.
Likelihood-frei: Da die Optimierung auf dem Vorwärtsprozess und dem Flow-Matching-Objektiv basiert, ist keine Schätzung der Likelihood oder Approximation von Trajektorienwahrscheinlichkeiten notwendig.
CFG-frei: Das Verfahren verzichtet auf Classifier-Free Guidance während des Trainings. Die Policy wird rein bedingt trainiert. Die Fähigkeit zur Guidance wird durch das RL-Post-Training selbst erlernt.

Algorithmische Besonderheiten:

Solver-Flexibilität: Da der Vorwärtsprozess unabhängig vom inversen Sampling ist, können beliebige Black-Box-Solver (auch hochpräzise ODE-Solver) für die Datenerfassung genutzt werden.
Off-Policy Natur: Es müssen keine gesamten Sampling-Trajektorien gespeichert werden; nur die sauberen Bilder ( $x_0$ ) und ihre Belohnungen sind für das Training erforderlich.
Soft Updates: Um Stabilität zu gewährleisten, wird die Sampling-Policy ( $\pi_{old}$ ) nicht hart aktualisiert, sondern durch einen EMA-Update (Exponential Moving Average) langsam an die Trainings-Policy ( $\pi_\theta$ ) angepasst.

3. Hauptbeiträge

Neues Paradigma: Einführung von DiffusionNFT als erste Online-RL-Methode für Diffusionsmodelle, die den Vorwärtsprozess nutzt und somit die Forward-Consistency bewahrt.
Effizienzsteigerung: Durch die Eliminierung von Likelihood-Schätzungen und die Nutzung beliebiger Solver ist die Methode deutlich effizienter als Reverse-Process-Ansätze.
Vereinfachung: Das Training ist vollständig CFG-frei und erfordert keine komplexen Zwei-Modell-Architekturen oder Importance Sampling.
Theoretische Fundierung: Beweis, dass die Optimierung auf dem Vorwärtsprozess zu einer gültigen Policy-Verbesserung führt, die der optimalen Guidance entspricht.

4. Ergebnisse

Die Methode wurde am Modell SD3.5-Medium (ohne CFG-Initialisierung) evaluiert und mit dem State-of-the-Art FlowGRPO verglichen.

Effizienz: DiffusionNFT ist in direkten Vergleichen 3- bis 25-mal effizienter als FlowGRPO (gemessen in GPU-Stunden).
- Beispiel GenEval: DiffusionNFT erreicht einen Score von 0,98 in nur 1.000 Schritten (ohne CFG). FlowGRPO erreicht 0,95 erst nach über 5.000 Schritten und benötigt zusätzlich CFG.
Leistung:
- Das mit DiffusionNFT feinabgestimmte SD3.5-Medium übertrifft sowohl CFG-basierte Baselines als auch deutlich größere Modelle (wie SD3.5-L oder FLUX.1-Dev) in allen getesteten Benchmarks (GenEval, OCR, PickScore, HPSv2.1, ImageReward, etc.).
- Besonders hervorzuheben ist die Leistung im OCR-Bereich und bei kompositioneller Generierung, wo die Methode signifikante Verbesserungen gegenüber dem Basis-Modell ohne CFG zeigt.
Robustheit: Die Methode funktioniert stabil mit mehreren Reward-Modellen gleichzeitig (Multi-Reward Training) und verbessert sowohl In-Domain als auch Out-of-Domain-Metriken.

5. Bedeutung und Ausblick

DiffusionNFT stellt einen Paradigmenwechsel in der Nachtrainierung von Diffusionsmodellen dar.

Vereinheitlichung: Es bietet einen Weg, Supervised Learning (SL) und Reinforcement Learning (RL) in Diffusionsmodellen zu vereinen, indem es RL-Signale nahtlos in das Standard-SL-Objektiv (Flow Matching) integriert.
Skalierbarkeit: Durch die Unabhängigkeit von spezifischen Solvern und die Eliminierung von CFG-Overhead ist die Methode hochskalierbar und für zukünftige, komplexere Modelle geeignet.
Theoretische Prinzipien: Die Arbeit unterstreicht, dass der Vorwärtsprozess eine solide theoretische Grundlage für skalierbares und effizientes Diffusions-RL bietet, im Gegensatz zu den heuristischen Diskretisierungen des inversen Prozesses.

Zusammenfassend beweist DiffusionNFT, dass hochperformante, CFG-freie Diffusionsmodelle durch effizientes Online-RL erreicht werden können, ohne auf Likelihood-Schätzungen oder komplexe Guidance-Mechanismen angewiesen zu sein.

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

1. Das alte Problem: Der umgekehrte Weg

2. Die neue Lösung: Der Vorwärts-Weg (DiffusionNFT)

3. Die drei großen Vorteile (Warum ist das besser?)

4. Das Ergebnis: Ein Super-Schüler

Zusammenfassung

Titel: DiffusionNFT: Online Diffusion Reinforcement mit Vorwärtsprozess

1. Problemstellung

2. Methodik: DiffusionNFT

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas