Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die miljoenen schilderijen heeft gezien. Deze kunstenaar (het Diffusion Model) kan prachtige afbeeldingen maken, maar omdat hij zo veel heeft gezien, weet hij niet precies wat jij mooi vindt. Soms maakt hij iets dat technisch perfect is, maar saai, of iets dat niet helemaal klopt met wat je hebt gevraagd.

Om deze kunstenaar te leren wat mensen echt leuk vinden, hebben onderzoekers een nieuwe methode bedacht, beschreven in dit paper. Ze noemen het PGD en cPGD.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Lekke Band" van de Kunstenaar

Vroeger probeerden ze de kunstenaar te trainen door hem duizenden voorbeelden te laten zien van "mooi" versus "niet mooi". Dit heet DPO.

De analogie: Stel je voor dat je een student laat studeren voor een examen door hem alleen de juiste antwoorden te geven, maar ook de verkeerde antwoorden. Als je te lang doorgaat, raakt de student in de war. Hij begint de verkeerde antwoorden uit zijn hoofd te leren of hij wordt zo bang om fouten te maken dat hij helemaal niets meer durft te doen. Hij "overleert" (overfitting) en raakt zijn creativiteit kwijt.

2. De Oplossing: De "Gids" in plaats van de "Leraar"

De auteurs zeggen: "Wacht even, we hoeven de kunstenaar niet helemaal opnieuw te leren. We kunnen gewoon een gids bij hem zetten tijdens het maken van het schilderij."

Dit noemen ze Classifier-Free Guidance (CFG).

De analogie: Stel je voor dat de kunstenaar (het basismodel) een schilderij begint te maken. Normaal gesproken doet hij dit alleen.
- Bij de oude methode (DPO) probeerden we de kunstenaar zelf te herschrijven.
- Bij de nieuwe methode (PGD) laten we de kunstenaar werken, maar houden we een gids naast hem. Deze gids heeft een lijstje met wat mensen leuk vinden.
- Terwijl de kunstenaar werkt, zegt de gids: "Hé, die kleur is niet helemaal wat we willen, maak het iets anders."
- De kunstenaar luistert naar de gids, maar blijft zelf de meester. Hierdoor blijft hij creatief, maar wordt het resultaat wel beter afgestemd op wat mensen willen.

3. De Slimme Variant: Twee Gidsen (cPGD)

De auteurs vonden een nog slimmere manier: cPGD (contrastive PGD).

De analogie: In plaats van één gids die alleen zegt wat wel mooi is, hebben ze nu twee gidsen:
1. Gids A: Zegt alleen wat mooi is (bijvoorbeeld: "Een hond met bloemen").
2. Gids B: Zegt alleen wat niet mooi is (bijvoorbeeld: "Een hond die eruitziet als een brood").
Tijdens het maken van het schilderij nemen ze het advies van Gids A en trekken ze daar het advies van Gids B vanaf.
- Resultaat: "Neem de mooie hond, maar trek de lelijke hond er af."
- Dit geeft een heel scherp, duidelijk signaal. Het is alsof je een foto hebt van wat je wilt, en je trekt er een foto van wat je niet wilt af. Wat overblijft, is precies wat je zoekt.

4. Waarom is dit beter?

Geen overtraining: Omdat de kunstenaar zelf niet zwaar wordt getraind, blijft hij flexibel en maakt hij geen rare, starre fouten.
Plug-and-Play: Je kunt deze "gidsen" maken en ze op elke kunstenaar (elk model) plakken. Het is alsof je een nieuwe bril opzet; je hoeft je ogen niet te opereren.
Beter resultaat: In tests bleek dat deze methode veel vaker een mooi schilderij maakt dan de oude methoden, en dat de schilderijen er natuurlijker uitzien.

Samenvatting in één zin

In plaats van de kunstenaar zelf te dwingen om alles perfect te doen (wat vaak mislukt), zetten we slimme gidsen naast hem die tijdens het proces zeggen: "Dit is goed, dat is niet goed," zodat het eindresultaat precies is wat jij wilt, zonder dat de kunstenaar zijn creativiteit verliest.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Het uitdaging bij het afstemmen van grote tekst-naar-afbeelding (T2I) diffusiemodellen op menselijke voorkeuren is dat bestaande methoden vaak tekortschieten in generalisatie.

DPO-beperkingen: Directe Voorkeursoptimalisatie (DPO) is een populaire methode die het afstemmingsprobleem behandelt als een binaire classificatie op voorkeursparen (positief vs. negatief). Echter, bij grote schaal fine-tuning vertoont DPO vaak een generalisatiekloof. Het is vatbaar voor overfitting, kan leiden tot "mode collapse" (het model produceert slechts een beperkt aantal variaties) en vertoont soms catastrofale vergetelheid, vooral wanneer het wordt getraind op uitdijende datasets of met onvoldoende regularisatie.
Inference vs. Training: De auteurs stellen dat de focus op het volledig hertrainen van het model (via DPO) niet de meest robuuste aanpak is. In plaats daarvan kijken ze naar technieken die tijdens het inferentieproces (sampling) worden toegepast.

2. Methodologie: Classifier-Free Guidance (CFG) als Kader

De kerninnovatie van het paper is het herformuleren van voorkeursafstemming als een Classifier-Free Guidance (CFG)-proces tijdens de inferentie, in plaats van als een trainingsdoel.

A. Preference-Guided Diffusion (PGD)

De auteurs zien een fijngetuned model (op voorkeursdata) als een "conditioneel" model en het basismodel als een "unconditioneel" prior.

Concept: Net zoals CFG een conditionele voorspelling combineert met een unconditionele voorspelling om de kwaliteit te verbeteren, combineren PGD de voorspelling van het voorkeursmodel met die van het basismodel.
Formule: De scorefunctie tijdens het genereren wordt:
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
Waarbij $w$ de leidingsgewicht is.
Voordeel: Het "voorkeursmodel" hoeft niet volledig te zijn gefinetuned (wat overfitting veroorzaakt); het kan zelfs na slechts een paar trainingstaps worden gebruikt. De leidingsgewicht $w$ versterkt het verschil tussen het voorkeurssignaal en de prior tijdens het genereren, wat overfitting voorkomt.

B. Contrastive PGD (cPGD)

Om de generalisatie verder te verbeteren en het probleem van overfitting op te lossen, ontleden de auteurs het leerproces in twee aparte modules:

Een model ( $\theta_+$ ) dat wordt gefinetuned op positieve voorbeelden (gewenste afbeeldingen).
Een model ( $\theta_-$ ) dat wordt gefinetuned op negatieve voorbeelden (ongewenste afbeeldingen).

Contrastieve Vector: Tijdens de inferentie wordt een contrastieve leidingsvector gevormd door de voorspellingen van deze twee modellen van elkaar af te trekken:
$\nabla \log \pi_{cPGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{\theta_+}(x) - \nabla \log \pi_{\theta_-}(x))$
Theoretisch Inzicht: Dit kan worden gezien als dynamische herweging van de DPO-gradiënten. Door de "repellerende" kracht van negatieve voorbeelden uit te stellen tot het inferentietijdstip, wordt het model flexibeler en minder vatbaar voor overfitting op kleine datasets.

3. Belangrijkste Bijdragen

Nieuwe Perspectief: Het paper introduceert het idee om diffusiemodel-afstemming te behandelen als een speciaal geval van CFG-inferentie, wat de generalisatieproblemen van DPO adresseert.
PGD en cPGD: De introductie van twee nieuwe methoden:
- PGD: Gebruikt een enkel gefinetuned model als leidingssignaal.
- cPGD: Gebruikt twee onafhankelijk getrainde modellen (positief en negatief) voor een contrastieve aanpak.
Plug-and-Play Modulariteit: De methoden vereisen geen hertraining van het basismodel. De geleerde modules kunnen worden gebruikt om verschillende basismodellen te aligneren, zolang ze in dezelfde latente ruimte opereren.
Pareto-improvement: De methoden leveren tegelijkertijd hogere beloningen (rewards), lagere FID-scores (betere kwaliteit) en hogere diversiteit op, in tegenstelling tot DPO dat vaak een trade-off vereist.

4. Resultaten

De auteurs hebben hun methoden geëvalueerd op Stable Diffusion 1.5 (SD1.5) en Stable Diffusion XL (SDXL) met datasets zoals Pick-a-Pic v2 en HPDv3.

Kwalitatieve en Kwantitatieve Verbetering: Zowel PGD als cPGD presteren consistent beter dan de baselines (DPO, MaPO, NPO, SFT) op alle belangrijke metrics, waaronder PickScore, HPSv2/v3, ImageReward en CLIP-score.
Win Rates: In vergelijking met het basismodel behalen de voorgestelde methoden aanzienlijk hogere win-rates (bijv. tot 80-90% op SDXL voor HPSv2).
Diversiteit en Fidelity: In tegenstelling tot DPO, dat vaak leidt tot mode collapse, behouden PGD en cPGD de diversiteit van de gegenereerde afbeeldingen en de "prior preservation" (de natuurlijke eigenschappen van het basismodel blijven behouden).
Robuustheid: De methoden presteren goed op zowel kleine, hoogwaardige subsets als grote, variabele datasets.
Menselijke Evaluatie: In een menselijke voorkeurstest (met 20 deelnemers) werden PGD en cPGD significant vaker geselecteerd dan DPO en andere baselines (PGD kreeg 45,5% van de stemmen tegenover 29,5% voor DPO).

5. Betekenis en Impact

Dit paper biedt een fundamenteel nieuw perspectief op het afstemmen van generatieve AI-modellen:

Efficiëntie: Het vermijdt de noodzaak voor zware, overfitting-gevoelige trainingen door de "kracht" van de voorkeursafstemming te verplaatsen naar het inferentiestadium.
Stabiliteit: Door het gebruik van contrastieve guidance (cPGD) wordt het risico op instabiliteit en mode collapse aanzienlijk verminderd.
Toepasbaarheid: De aanpak is modulair en kan worden toegepast op bestaande modellen zonder hun architectuur te wijzigen, wat het een krachtige tool maakt voor de bredere gemeenschap van T2I-generatie.

Kortom, de auteurs bewijzen dat het benutten van de principes van Classifier-Free Guidance voor voorkeursafstemming een superieure, stabielere en effectievere route biedt dan de huidige state-of-the-art DPO-methoden.

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

1. Het Probleem: De "Lekke Band" van de Kunstenaar

2. De Oplossing: De "Gids" in plaats van de "Leraar"

3. De Slimme Variant: Twee Gidsen (cPGD)

4. Waarom is dit beter?

Samenvatting in één zin

1. Het Probleem

2. Methodologie: Classifier-Free Guidance (CFG) als Kader

A. Preference-Guided Diffusion (PGD)

B. Contrastive PGD (cPGD)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation