Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Deze paper introduceert de EPD-Solver, een nieuwe ODE-oplosser die de hoge latentie van diffusiemodellen verlaagt door parallelle gradientberekeningen en een tweestaps-optimatieframework met reinforcement learning te gebruiken om de beeldkwaliteit bij snelle generatie te behouden.

Ruoyu Wang, Ziyu Li, Beier Zhu, Liangyu Yuan, Hanwang Zhang, Xun Yang, Xiaojun Chang, Chi Zhang

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkunstenaar bent die een prachtig schilderij moet maken, maar je hebt een heel lastige opdracht: je mag alleen één kwaststreek per seconde zetten, en elke streek moet perfect zijn. Als je te snel gaat (weinig streeken), wordt het schilderij wazig en onherkenbaar. Als je te langzaam gaat (veel streeken), duurt het uren voordat het af is.

Dit is precies het probleem met Diffusiemodellen (de AI's die foto's maken zoals Midjourney of DALL-E). Ze werken door een ruisig beeld heel langzaam "op te poetsen" tot het een duidelijke foto is. Dit proces is echter traag omdat het stap-voor-stap moet gebeuren.

Deze paper introduceert een nieuwe oplossing: de EPD-Solver. Laten we kijken hoe dit werkt met een paar simpele vergelijkingen.

1. Het oude probleem: De "Gokker" vs. De "Wiskundige"

Stel je voor dat je een berg afdaalt.

  • De oude methoden (zoals DDIM) kijken alleen naar de grond direct onder hun voeten en zeggen: "Ik ga hier een stap zetten." Als de berg een scherpe bocht maakt, raken ze de weg kwijt en vallen ze in een kuil (dit noemen ze fouten of truncation errors).
  • Andere methoden (zoals EDM) kijken naar de grond onder hun voeten én naar de plek waar ze over 10 seconden zouden zijn, en nemen het gemiddelde. Dit is beter, maar nog steeds niet perfect bij scherpe bochten.

2. De EPD-oplossing: De "Parallellische Verkenner"

De EPD-Solver heeft een slimme truc bedacht. In plaats van één of twee punten te checken, doet hij alsof hij meerdere vrienden heeft die tegelijkertijd de berg aflopen.

  • De Parallelle Kracht: Stel je voor dat je in één seconde vijf vrienden de berg afstuurt naar verschillende plekken in de buurt. Ze kijken allemaal naar de helling (de "gradiënt") op hun plek.
  • De Samenvatting: Vervolgens komen ze terug en zeggen: "Oké, als we al onze waarnemingen samenvoegen, weten we precies welke kant we op moeten, zelfs als de weg heel krom is."
  • Het Magische: Omdat al deze vrienden tegelijkertijd werken (parallel), duurt het niet langer dan het kijken van één vriend. De AI maakt dus dezelfde tijd, maar krijgt veel meer informatie. Het is alsof je met één oogopslag vijf verschillende hoeken van een object ziet in plaats van maar één.

3. Twee fases van leren: Van "Kopieer" naar "Meester"

De auteurs laten de AI in twee stappen leren, net zoals een leerling die eerst een meester kopieert en dan zijn eigen stijl vindt.

Fase 1: De Distillatie (Het kopiëren)
De AI kijkt naar een zeer langzame, perfecte "meester-AI" die 50 stappen maakt. De EPD-Solver probeert deze perfecte route na te bootsen, maar dan in slechts 5 stappen. Hij leert de "bochten" van de weg te begrijpen door de parallelle vrienden te gebruiken. Dit is als een student die de oplossingen van een wiskundig genie bestudeert om zelf snel te kunnen rekenen.

Fase 2: Reinforcement Learning (Het menselijke gevoel)
Soms is een wiskundig perfecte route niet wat mensen mooi vinden. Misschien is de foto technisch correct, maar ziet de hond er een beetje raar uit.

  • Hier komt RL (Versterkend Leren) om de hoek kijken.
  • De auteurs gebruiken een slimme truc: ze laten de AI niet de hele zware "meester" herschrijven (dat kost te veel tijd en energie). In plaats daarvan laten ze alleen de stuurknoppen van de EPD-Solver aanpassen.
  • Ze gebruiken een Dirichlet-beleid: Denk hierbij aan een magische kompasnaald. De AI leert hoe ze deze naald moet draaien om de beste resultaten te krijgen, gebaseerd op wat mensen mooi vinden (bijvoorbeeld: "deze foto ziet er realistischer uit").
  • Ze gebruiken een methode genaamd RLOO: De AI maakt 5 versies van een foto, laat een "jury" (een reward model) ze beoordelen, en past de stuurknoppen aan op basis van welke versie het beste scoorde.

Waarom is dit zo cool?

  1. Snelheid: Het is net zo snel als de oude methoden, maar de foto's zijn veel scherper.
  2. Kwaliteit: Op tests (zoals het maken van foto's van mensen of dieren) scoort deze methode beter dan alles wat er voorheen bestond, zelfs als je maar heel weinig stappen (5 of 20) gebruikt.
  3. Flexibiliteit: Het werkt als een "plug-in". Je kunt het op bijna elke bestaande foto-AI plakken om die direct sneller en beter te maken.

Kort samengevat:
De EPD-Solver is als een team van verkenners dat samenwerkt om een berg af te dalen. In plaats van één persoon die langzaam en voorzichtig loopt, sturen ze een groepje dat tegelijkertijd de weg verkent. Hierdoor vinden ze de perfecte route veel sneller, zonder dat het langer duurt. En door een beetje "menselijke feedback" toe te voegen, zorgen ze ervoor dat het eindresultaat er niet alleen technisch goed uitziet, maar ook echt mooi is voor het menselijk oog.