TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

TDM-R1 is een nieuwe versterkingsleerparadigma dat few-step diffusiemodellen effectief optimaliseert met niet-differentieerbare beloningen door het leerproces te ontkoppelen in surrogaatbeloningslering en generatorlering, wat leidt tot state-of-the-art prestaties in diverse generatietaken.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet maken. Normaal gesproken duurt het veel tijd en veel penseelstreken om een prachtig, gedetailleerd werk te maken. In de wereld van kunstmatige intelligentie (AI) is dit vergelijkbaar met de "stappen" die een model moet doorlopen om een afbeelding te genereren.

Het probleem:
De nieuwe, snelle AI-modellen (de "few-step" modellen) kunnen een afbeelding in slechts 4 penseelstreken maken, in plaats van de gebruikelijke 80 of 100. Dit is ongelooflijk snel en goedkoop. Maar er zit een addertje onder het gras: deze snelle kunstenaars zijn soms niet heel goed in het volgen van specifieke instructies. Als je zegt: "Teken een rode kat links van een blauwe hond", maken ze misschien een kat, maar staat hij rechts, of is hij groen.

Vroeger probeerden we deze modellen te verbeteren door ze te laten "leren" van een leraar die elke penseelstreek corrigeerde. Maar die leraar kon alleen helpen als de fouten meetbaar en wiskundig uit te rekenen waren (zoals "de kleur is 5% te rood"). Veel belangrijke dingen in de echte wereld zijn echter niet zo meetbaar: "Vindt een mens dit beeld mooi?", "Zit er precies één hond in de afbeelding?" of "Is de tekst leesbaar?". Deze dingen zijn niet-wiskundig (non-differentiable) en de oude methoden konden hier niets mee.

De oplossing: TDM-R1
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd TDM-R1. Laten we dit uitleggen met een paar creatieve vergelijkingen:

1. De "Vaste Route" in plaats van "Gokken"

Stel je voor dat je een snelle auto hebt die van punt A naar punt B moet rijden.

  • De oude manier: De auto rijdt een willekeurige route (stochastisch). Omdat de route elke keer anders is, is het voor de leraar heel moeilijk om te zeggen: "Op dit specifieke moment was je te snel." De feedback is vaag en onbetrouwbaar.
  • De TDM-R1 manier: De auto rijdt een vaste, voorspelbare route (deterministisch). Omdat we precies weten welke weg de auto neemt, kan de leraar op elk moment van de rit precies zeggen: "Op kilometer 5 was je te snel, en op kilometer 10 was je te traag."
    Dit maakt het mogelijk om de AI stap voor stap te corrigeren, zelfs als de eindresultaat pas aan het einde wordt beoordeeld.

2. De "Slimme Tussentijdse Oefening" (Surrogate Reward)

Het grootste probleem was: hoe geef je feedback aan een schilder die nog halverwege is, als je pas kunt zeggen of het schilderij goed is als het klaar is?

  • Het oude probleem: Je wacht tot het schilderij klaar is, zegt "Dit is goed!", en probeert dan terug te rekenen welke penseelstreek daarvoor verantwoordelijk was. Dit werkt niet goed bij snelle modellen; het resultaat wordt wazig en onduidelijk.
  • De TDM-R1 oplossing: Ze hebben een tussentijdse trainer bedacht. Stel je voor dat de AI een "tussenpersoon" heeft. Deze persoon kijkt naar de halve afbeelding en zegt: "Als je nu zo doorgaat, krijg je waarschijnlijk een goed resultaat."
    Deze trainer is niet de eindbeoordelaar, maar een slimme gids die de AI helpt om de goede richting op te gaan. De AI leert van deze gids, en de gids wordt zelf ook steeds slimmer door te kijken naar wat de AI produceert. Het is een soort danspartij: de AI leert de stappen, en de gids leert de muziek beter te begrijpen, zodat ze samen een perfecte dans kunnen doen.

3. Leren van "Mensen" in plaats van "Wiskunde"

Dit is het belangrijkste: TDM-R1 laat de AI leren van menselijke voorkeuren.

  • Vroeger: "De afbeelding moet exact 50% rood zijn." (Wiskundig, maar saai).
  • Nu met TDM-R1: "Kijk, deze afbeelding met de tekst 'Ultra-Powerful' is leuk, die andere met 'Ultra-Powerfull' (met een foutje) is niet leuk."
    De AI leert hieruit wat mensen leuk vinden, zonder dat er een wiskundige formule voor nodig is. Het is alsof je een kind leert tekenen door te zeggen: "Leuk, die hond!", in plaats van "De poten moeten 3,4 cm lang zijn."

Wat is het resultaat?
Dankzij deze methode kunnen de snelle AI-modellen (die maar 4 stappen nodig hebben) nu beter presteren dan de oude, trage modellen die 80 stappen nodig hadden.

  • Ze kunnen tekst perfect in afbeeldingen schrijven.
  • Ze kunnen complexe instructies volgen (bijv. "een kat links van een hond").
  • Ze zien er scherper en mooier uit.

Kort samengevat:
TDM-R1 is als het geven van een GPS met live feedback aan een racewagen. In plaats van dat de wagen blindelings racet en pas aan het einde wordt beoordeeld, krijgt de wagen op elk moment van de rit een slim signaal: "Houd je aan de route, want zo komen we bij het doel dat mensen leuk vinden." Hierdoor wordt de snelle wagen (het AI-model) niet alleen sneller, maar ook slimmer en nauwkeuriger dan de oude, langzame wagens.