DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Het paper introduceert DiffusionNFT, een nieuwe online versterkingsleer-paradigma dat diffusion-modellen direct op het voorwaartse proces optimaliseert door positieve en negatieve generaties te vergelijken, waardoor het 25 keer efficiënter is dan bestaande methoden, onafhankelijk is van likelihood-schattingen en classifier-free guidance, en aanzienlijke prestatieverbeteringen bereikt.

Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

DiffusionNFT: De Slimme Kunstenaar die Leren van Fouten

Stel je voor dat je een kunstenaar hebt die fantastische schilderijen maakt, maar soms wat rommelig is. Je wilt dat deze kunstenaar nog beter wordt, bijvoorbeeld door precies te doen wat jij vraagt (zoals "een blauwe pizza met een gele honkbalknuppel").

In de wereld van kunstmatige intelligentie (AI) heet zo'n kunstenaar een diffusiemodel. Het werkt als volgt: de AI begint met een pot vol willekeurige ruis (zoals statische op een oude TV) en verwijdert stap voor stap het ruis tot er een mooi plaatje uitkomt.

Het probleem is: hoe leer je deze AI om nog beter te worden zonder haar te "herprogrammeren"? Meestal gebruiken onderzoekers een methode die lijkt op Reinforcement Learning (beloningstraining). Maar voor diffusiemodellen is dit heel lastig, omdat je niet precies kunt berekenen hoe waarschijnlijk een bepaald schilderij is. Het is alsof je probeert een auto te besturen terwijl je de motor niet kunt zien.

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht: DiffusionNFT. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem met de Oude Methode (De "Terugwaartse" Route)

De oude manier om deze AI te trainen was als een detective die het schilderij terug probeert te bouwen. Ze keken naar elke stap van het ruis-verwijderingsproces en probeerden te berekenen: "Was deze stap goed?"

  • Het nadeel: Dit was extreem traag, vereiste speciale gereedschappen (samplers) en was vaak onnauwkeurig. Het was alsof je probeert een cake te bakken door te kijken hoe je de ingrediënten weer uit de oven haalt, in plaats van te kijken of de cake er lekker uitziet.

2. De Nieuwe Oplossing: DiffusionNFT (De "Voorwaartse" Route)

DiffusionNFT kijkt niet terug naar de ruis, maar vooruit naar het eindresultaat. Het idee is heel simpel en krachtig:

  • De "Goede" en de "Slechte" Kunst:
    Stel je voor dat de AI 10 schilderijen maakt op basis van jouw opdracht.

    • Een paar zijn geweldig (de positieve groep).
    • Een paar zijn slecht of raar (de negatieve groep).
    • Oude methode: Leer alleen van de goede.
    • DiffusionNFT: Leer van beide. Kijk niet alleen naar wat goed is, maar vooral ook naar wat niet goed is.
  • De Analogie van de Kompasnaald:
    Stel je voor dat de AI een kompas heeft.

    • De "goede" schilderijen wijzen de AI naar het noorden (de goede richting).
    • De "slechte" schilderijen wijzen naar het zuiden (de verkeerde richting).
    • DiffusionNFT trekt de naald niet alleen naar het noorden, maar duwt hem ook actief weg van het zuiden. Door het verschil te zien tussen wat goed en wat slecht is, weet de AI precies welke kant op moet. Dit noemen ze "Negatieve Awareness" (bewustzijn van fouten).

3. Waarom is dit zo geweldig?

  • Geen ingewikkelde wiskunde nodig: De oude methode vereiste ingewikkelde berekeningen om te schatten hoe waarschijnlijk een plaatje was. DiffusionNFT doet dit niet. Het kijkt gewoon: "Dit plaatje is leuk, dat plaatje is lelijk." Punt.
  • Sneller en efficiënter: De paper laat zien dat DiffusionNFT tot 25 keer sneller is dan de vorige beste methode (FlowGRPO). Het is alsof je van een fiets op een Formule 1-auto stapt. Waar de oude methode uren nodig had om een goed resultaat te krijgen, doet de nieuwe methode dit in minuten.
  • Geen "Magische Knop" nodig: Vaak gebruiken AI's een trucje genaamd "CFG" (Classifier-Free Guidance) om betere plaatjes te maken. Dit is als een magische knop die je moet indrukken, maar die de training erg complex maakt. DiffusionNFT leert de AI vanzelf om deze truc te doen, zonder die extra knop. De AI wordt dus zelfstandiger.

4. Het Resultaat in de Praktijk

De auteurs hebben dit getest op een bekend model (SD3.5-Medium).

  • Voorheen: Het model kreeg een score van 0,24 op een test (GenEval) en had veel hulp nodig.
  • Met DiffusionNFT: Na slechts een korte training (1.000 stappen) schoot de score omhoog naar 0,98. Dat is bijna perfect.
  • Het model kon nu niet alleen betere plaatjes maken, maar ook tekst in plaatjes schrijven (zoals "Google Research Pizza Cafe" in vuurwerk) en complexe scènes begrijpen, zonder dat de kwaliteit van de basis afnam.

Samenvatting in één zin

DiffusionNFT is een slimme trainingsmethode die een AI-kunstenaar niet alleen leert wat hij moet doen, maar vooral ook wat hij niet moet doen, waardoor hij veel sneller en beter wordt zonder ingewikkelde wiskundige berekeningen.

Het is alsof je een leerling niet alleen vertelt "dit is een goed schilderij", maar ook uitlegt: "kijk, dit hier is een mislukte poging, en door dat verschil te zien, weet je precies hoe je de volgende keer een meesterwerk maakt."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →