DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Each language version is independently generated for its own context, not a direct translation.

DiffusionNFT: De Slimme Kunstenaar die Leren van Fouten

Stel je voor dat je een kunstenaar hebt die fantastische schilderijen maakt, maar soms wat rommelig is. Je wilt dat deze kunstenaar nog beter wordt, bijvoorbeeld door precies te doen wat jij vraagt (zoals "een blauwe pizza met een gele honkbalknuppel").

In de wereld van kunstmatige intelligentie (AI) heet zo'n kunstenaar een diffusiemodel. Het werkt als volgt: de AI begint met een pot vol willekeurige ruis (zoals statische op een oude TV) en verwijdert stap voor stap het ruis tot er een mooi plaatje uitkomt.

Het probleem is: hoe leer je deze AI om nog beter te worden zonder haar te "herprogrammeren"? Meestal gebruiken onderzoekers een methode die lijkt op Reinforcement Learning (beloningstraining). Maar voor diffusiemodellen is dit heel lastig, omdat je niet precies kunt berekenen hoe waarschijnlijk een bepaald schilderij is. Het is alsof je probeert een auto te besturen terwijl je de motor niet kunt zien.

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht: DiffusionNFT. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem met de Oude Methode (De "Terugwaartse" Route)

De oude manier om deze AI te trainen was als een detective die het schilderij terug probeert te bouwen. Ze keken naar elke stap van het ruis-verwijderingsproces en probeerden te berekenen: "Was deze stap goed?"

Het nadeel: Dit was extreem traag, vereiste speciale gereedschappen (samplers) en was vaak onnauwkeurig. Het was alsof je probeert een cake te bakken door te kijken hoe je de ingrediënten weer uit de oven haalt, in plaats van te kijken of de cake er lekker uitziet.

2. De Nieuwe Oplossing: DiffusionNFT (De "Voorwaartse" Route)

DiffusionNFT kijkt niet terug naar de ruis, maar vooruit naar het eindresultaat. Het idee is heel simpel en krachtig:

De "Goede" en de "Slechte" Kunst:
Stel je voor dat de AI 10 schilderijen maakt op basis van jouw opdracht.
- Een paar zijn geweldig (de positieve groep).
- Een paar zijn slecht of raar (de negatieve groep).
- Oude methode: Leer alleen van de goede.
- DiffusionNFT: Leer van beide. Kijk niet alleen naar wat goed is, maar vooral ook naar wat niet goed is.
De Analogie van de Kompasnaald:
Stel je voor dat de AI een kompas heeft.
- De "goede" schilderijen wijzen de AI naar het noorden (de goede richting).
- De "slechte" schilderijen wijzen naar het zuiden (de verkeerde richting).
- DiffusionNFT trekt de naald niet alleen naar het noorden, maar duwt hem ook actief weg van het zuiden. Door het verschil te zien tussen wat goed en wat slecht is, weet de AI precies welke kant op moet. Dit noemen ze "Negatieve Awareness" (bewustzijn van fouten).

3. Waarom is dit zo geweldig?

Geen ingewikkelde wiskunde nodig: De oude methode vereiste ingewikkelde berekeningen om te schatten hoe waarschijnlijk een plaatje was. DiffusionNFT doet dit niet. Het kijkt gewoon: "Dit plaatje is leuk, dat plaatje is lelijk." Punt.
Sneller en efficiënter: De paper laat zien dat DiffusionNFT tot 25 keer sneller is dan de vorige beste methode (FlowGRPO). Het is alsof je van een fiets op een Formule 1-auto stapt. Waar de oude methode uren nodig had om een goed resultaat te krijgen, doet de nieuwe methode dit in minuten.
Geen "Magische Knop" nodig: Vaak gebruiken AI's een trucje genaamd "CFG" (Classifier-Free Guidance) om betere plaatjes te maken. Dit is als een magische knop die je moet indrukken, maar die de training erg complex maakt. DiffusionNFT leert de AI vanzelf om deze truc te doen, zonder die extra knop. De AI wordt dus zelfstandiger.

4. Het Resultaat in de Praktijk

De auteurs hebben dit getest op een bekend model (SD3.5-Medium).

Voorheen: Het model kreeg een score van 0,24 op een test (GenEval) en had veel hulp nodig.
Met DiffusionNFT: Na slechts een korte training (1.000 stappen) schoot de score omhoog naar 0,98. Dat is bijna perfect.
Het model kon nu niet alleen betere plaatjes maken, maar ook tekst in plaatjes schrijven (zoals "Google Research Pizza Cafe" in vuurwerk) en complexe scènes begrijpen, zonder dat de kwaliteit van de basis afnam.

Samenvatting in één zin

DiffusionNFT is een slimme trainingsmethode die een AI-kunstenaar niet alleen leert wat hij moet doen, maar vooral ook wat hij niet moet doen, waardoor hij veel sneller en beter wordt zonder ingewikkelde wiskundige berekeningen.

Het is alsof je een leerling niet alleen vertelt "dit is een goed schilderij", maar ook uitlegt: "kijk, dit hier is een mislukte poging, en door dat verschil te zien, weet je precies hoe je de volgende keer een meesterwerk maakt."

Each language version is independently generated for its own context, not a direct translation.

Titel: DiffusionNFT: Online Diffusie-Versterking met Voorwaartse Proces

Publicatie: ICLR 2026
Auteurs: Kaiwen Zheng, Huayu Chen, et al. (Tsinghua University, NVIDIA, Stanford University)

1. Het Probleem

Online versterkingsleren (RL) is cruciaal geworden voor het na-trainen van taalmodellen (LLMs), maar de toepassing op diffusiemodellen voor visuele generatie blijft een uitdaging. Bestaande methoden, zoals FlowGRPO, proberen RL toe te passen door het reverse sampling-proces (het ontdoemen) te discretiseren en te behandelen als een multi-stap beslissingsproces. Dit leidt echter tot fundamentele beperkingen:

Intractable Likelihoods: Diffusiemodellen hebben geen exact berekenbare waarschijnlijkheidsdichtheid (likelihood), wat essentieel is voor traditionele Policy Gradient-algoritmen. Bestaande oplossingen moeten daarom benaderingen gebruiken die systematische bias introduceren.
Forward-Reverse Inconsistentie: Door zich uitsluitend op het reverse-proces te richten, wordt de consistentie met het onderliggende voorwaartse diffusieproces (Fokker-Planck-vergelijking) verbroken. Dit kan leiden tot degradatie van het model naar een opeenvolging van Gaussische verdelingen.
Solver-beperkingen: Methoden zoals FlowGRPO zijn afhankelijk van eerste-orde SDE-samplers (Stochastic Differential Equations) om stochastische overgangen te creëren. Dit sluit efficiëntere ODE-samplers (Ordinary Differential Equations) of hogere-orde solvers uit, die standaard zijn bij flow-modellen.
Complexe CFG-integratie: Diffusiemodellen vertrouwen sterk op Classifier-Free Guidance (CFG) voor kwaliteit. Huidige RL-methoden vereisen vaak een ingewikkeld trainingschema met twee modellen (voorwaarde en onvoorwaarde) om CFG te integreren, wat de efficiëntie verlaagt.

2. Methodologie: DiffusionNFT

De auteurs introduceren Diffusion Negative-aware Fine-Tuning (DiffusionNFT), een nieuw online RL-paradigma dat het voorwaartse proces (noising) optimaliseert in plaats van het reverse-proces.

Kernconcepten:

Forward-Process RL: In plaats van het reverse-proces te modelleren als een MDP (Markov Decision Process), definieert DiffusionNFT het beleidsoptimalisatieprobleem direct op het voorwaartse proces via Flow Matching.
Contrastieve Verbetering (Positive vs. Negative): Het algoritme splitst gegenereerde afbeeldingen op basis van een beloningssignaal ( $r$ $r$ ) in een "positieve" set ( $D^+$ $D^{+}$ , hoge beloning) en een "negatieve" set ( $D^-$ $D^{-}$ , lage beloning).
- In plaats van alleen op $D^+$ te trainen (zoals bij Rejection Fine-Tuning), wordt een verbeteringsrichting ( $\Delta$ ) afgeleid door het contrast tussen het originele beleid ( $\pi_{old}$ ), het positieve beleid ( $\pi^+$ ) en het negatieve beleid ( $\pi^-$ ).
Implicit Guidance: De methode definieert een doel-velocity $v^*$ die het originele model $v_{old}$ combineert met een "reinforcement guidance" term. Dit wordt geïmplementeerd via een dubbele supervised learning loss:
$\mathcal{L}(\theta) = \mathbb{E} [ r \cdot \|v^+_\theta - v\|^2 + (1-r) \cdot \|v^-_\theta - v\|^2 ]$
Waarbij $v^+_\theta$ en $v^-_\theta$ impliciete positieve en negatieve beleidscombinaties zijn. Dit stelt het model in staat om direct te leren van zowel goede als slechte voorbeelden zonder een aparte guidance-model te hoeven trainen.

Belangrijke Technische Voordelen:

Likelihood-vrij: Geen schatting van likelihoods nodig; het is puur een supervised learning taak.
Solver-vrij: Het data-verzamelproces kan gebruikmaken van elke black-box solver (inclusief efficiënte ODE-samplers), omdat de training niet afhankelijk is van de specifieke stochastische overgangen van de sampler.
Traject-vrij: Er is geen opslag nodig van het volledige sampling-traject; alleen de schone afbeeldingen ( $x_0$ ) en hun beloningen zijn nodig.
CFG-vrij: Het model wordt getraind zonder Classifier-Free Guidance, maar leert de functionaliteit van CFG via het RL-proces zelf, wat leidt tot een enkel model dat zowel conditie-afhankelijk als onafhankelijk kan genereren.

3. Belangrijkste Bijdragen

Nieuw Paradigma: Introductie van DiffusionNFT als een native off-policy RL-methode die werkt op het voorwaartse proces, wat de theoretische inconsistentie van reverse-process RL oplost.
Efficiëntie en Flexibiliteit: Het elimineert de noodzaak voor SDE-samplers en likelihood-benaderingen, waardoor het compatibel is met de meest efficiënte solvers (zoals DPM-Solver).
CFG-Free Optimalisatie: Bewijst dat een enkel model, getraind zonder CFG, superieure prestaties kan behalen ten opzichte van CFG-baselines en methoden die CFG vereisen.
Theoretische Onderbouwing: Het paper biedt wiskundige bewijzen (Theorema 3.1 en 3.2) dat de voorgestelde loss-functie leidt tot een optimale beleidsverbetering die gelijkstaat aan het volgen van de reinforcement guidance.

4. Resultaten

De methode werd geëvalueerd op SD3.5-Medium (2.5B parameters) met meerdere beloningsmodellen (GenEval, OCR, PickScore, ClipScore, HPSv2.1, etc.).

Efficiëntie: DiffusionNFT is 3x tot 25x efficiënter dan FlowGRPO in termen van GPU-tijd.
- Voorbeeld: Op de GenEval-taak bereikt DiffusionNFT een score van 0.98 binnen 1.000 stappen. FlowGRPO bereikt 0.95 met meer dan 5.000 stappen én extra CFG.
Prestaties:
- Het model verbetert de GenEval-score van 0.24 (basis zonder CFG) naar 0.98.
- Het overtreft op alle geteste benchmarks (zowel in-domain als out-of-domain) zowel de CFG-baselines als FlowGRPO.
- Het presteert zelfs beter dan grotere modellen zoals SD3.5-L (8B) en FLUX.1-Dev (12B) op specifieke taken, ondanks dat het een kleiner model is.
Stabiliteit: Ablatiestudies tonen aan dat de "negatieve" component essentieel is; training alleen op positieve data leidt tot instorting (collapse), terwijl de combinatie van positieve en negatieve signalen stabiele convergentie garandeert.

5. Betekenis en Conclusie

DiffusionNFT vertegenwoordigt een fundamentele verschuiving in hoe versterkingsleren op diffusiemodellen wordt benaderd. Door de focus te verleggen van het reverse-proces naar het voorwaartse proces, lost de methode de problemen van likelihood-benadering, solver-restricties en CFG-complexiteit op.

De studie suggereert dat supervised learning (via flow matching) een krachtigere en theoretisch zuiverdere basis kan zijn voor online RL dan traditionele policy gradient-methoden. Dit opent de deur voor schaalbare, efficiënte en theoretisch onderbouwde RL-methoden die toepasbaar zijn op diverse modaliteiten, zonder de noodzaak van ingewikkelde sampling-strategieën of meerdere modellen.

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

1. Het Probleem met de Oude Methode (De "Terugwaartse" Route)

2. De Nieuwe Oplossing: DiffusionNFT (De "Voorwaartse" Route)

3. Waarom is dit zo geweldig?

4. Het Resultaat in de Praktijk

Samenvatting in één zin

Titel: DiffusionNFT: Online Diffusie-Versterking met Voorwaartse Proces

1. Het Probleem

2. Methodologie: DiffusionNFT

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas