Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Roboter-Koch", der nicht weiß, was wir mögen

Stell dir vor, du hast einen genialen Roboter-Koch (das ist der Diffusions-Modell, z. B. Stable Diffusion). Dieser Koch hat Millionen von Kochbüchern gelesen und kann fantastische Gerichte kochen. Aber er hat ein Problem: Er weiß nicht genau, was dir schmeckt. Vielleicht magst du es nicht so scharf, oder du bevorzugt eine bestimmte Garnierung.

Wenn du ihm sagst: "Mach mir ein leckeres Essen!", kocht er vielleicht etwas, das technisch perfekt ist, aber geschmacklich nicht trifft.

Bisher gab es zwei Wege, ihn zu trainieren:

Der harte Weg (RLHF): Man stellt ihm einen strengen Koch-Lehrer hin, der ihm ständig sagt: "Nein, das ist zu salzig!" und "Ja, das ist gut!". Das funktioniert, ist aber teuer und kompliziert.
Der direkte Weg (DPO): Man zeigt dem Koch einfach Paare von Gerichten: "Dieses hier ist besser als jenes." Der Koch lernt daraus. Aber das Problem dabei ist: Der Koch lernt oft nur auswendig, was er gesehen hat. Wenn du ihn dann bittest, etwas Neues zu kochen, das er nie gesehen hat, versagt er oder kocht etwas, das gar nicht mehr essbar ist (das nennt man Überanpassung oder "Overfitting"). Er verliert sein allgemeines Kochwissen und wird zu starr.

Die neue Idee: Der "Koch-Assistent" mit einem Zauberstab

Die Autoren dieses Papers haben eine geniale neue Idee: Statt den Koch komplett umzuerziehen, geben wir ihm einen Zauberstab (das ist die Classifier-Free Guidance oder CFG), den er nur benutzt, wenn er das Gericht serviert.

Stell dir vor, der Koch (das Basis-Modell) ist der Grundzustand. Er kann alles, aber ohne Geschmack.
Dann haben wir einen kleinen Assistenten (das feinabgestimmte Modell), der nur weiß, was gut aussieht.

Wie funktioniert das?
Wenn der Koch ein Gericht zubereitet, mischt der Assistent seinen "Geschmacksrat" mit dem des Kochs.

Der Koch sagt: "Hier ist ein Bild."
Der Assistent sagt: "Nein, mach es so, wie es die Menschen mögen!"
Der Zauberstab (der "Gewicht"-Faktor) entscheidet, wie stark der Assistent mitreden darf.

Das Tolle daran: Der Koch muss nicht neu lernen. Er bleibt flexibel. Der Assistent gibt nur die Richtung vor.

Die zwei Varianten: PGD und cPGD

Die Forscher haben zwei Methoden entwickelt, die wie zwei verschiedene Arten von Assistenten funktionieren:

1. PGD (Der "Gute-Assistent")

Hier trainieren wir einen Assistenten, der nur auf guten Bildern lernt (die Bilder, die Menschen mögen).

Der Trick: Wir lassen den Assistenten nur ein bisschen trainieren (nicht zu lange!), damit er nicht starr wird.
Beim Servieren: Wir nehmen den Koch (Basis) und addieren den Unterschied zwischen dem Assistenten und dem Koch.
Vergleich: Es ist wie bei einem Musikproduzenten. Der Koch spielt den Song. Der Assistent spielt eine Version, die "besser" klingt. Wir mischen beide zusammen, wobei der Assistent den Song "schärfer" und "besser" macht, ohne den Rhythmus zu zerstören.

2. cPGD (Der "Gute-und-Schlechte-Assistent")

Das ist die noch cleverere Version. Hier haben wir zwei Assistenten:

Assistent A: Lernt nur von den besten Bildern (die Menschen mögen).
Assistent B: Lernt nur von den schlechtesten Bildern (die Menschen hassen).

Wie funktioniert das?
Beim Servieren fragen wir beide: "Wie sieht das aus?"

Assistent A sagt: "Mach es so!"
Assistent B sagt: "Mach es NICHT so!"
Wir nehmen die Meinung von A und subtrahieren die Meinung von B.

Die Analogie:
Stell dir vor, du willst ein Foto machen.

Der "Gute-Assistent" sagt: "Helle Farben, scharfe Linien!"
Der "Schlechte-Assistent" sagt: "Vermeide unscharfe, graue Flecken!"
Indem wir das "Schlechte" vom "Guten" abziehen, bleibt ein extrem klarer, perfekter Vorschlag übrig. Es ist wie ein Kontrast-Filter: Wir heben das hervor, was wir wollen, und löschen das aus, was wir nicht wollen.

Warum ist das so toll?

Kein "Vergessen": Da wir den ursprünglichen Koch (das Basis-Modell) nicht komplett umbauen, vergisst er nicht, wie man überhaupt kocht. Er bleibt vielseitig.
Plug-and-Play: Du kannst diesen "Assistenten" (das kleine trainierte Modell) einfach zu jedem anderen Koch-Modell mitnehmen. Es funktioniert überall, ohne dass man den Koch neu trainieren muss.
Bessere Ergebnisse: In Tests hat sich gezeigt, dass diese Methode Bilder erzeugt, die Menschen viel mehr mögen als die alten Methoden, aber gleichzeitig immer noch kreativ und vielfältig sind.

Zusammenfassung in einem Satz

Statt einen Roboter-Koch komplett umzuerziehen und dabei sein Talent zu ruinieren, geben wir ihm einen intelligenten Assistenten, der ihm beim Servieren sagt: "Nimm das Gute, lass das Schlechte weg" – und das funktioniert mit einem einfachen mathematischen Trick, der wie ein Zauberstab wirkt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Ausrichtung (Alignment) großer Text-zu-Bild-Diffusionsmodelle an menschliche Präferenzen ist nach wie vor eine Herausforderung. Während Modelle auf großen Internet-Datensätzen trainiert werden, weichen sie oft von ästhetischen Vorlieben oder der Befolgung von Anweisungen ab.

Der aktuelle Standardansatz, Direct Preference Optimization (DPO), behandelt das Alignment als binäre Klassifizierungsaufgabe auf Präferenzpaaren (bevorzugt vs. nicht bevorzugt). Obwohl DPO einfacher als Reinforcement Learning from Human Feedback (RLHF) ist, leiden Diffusionsmodelle unter DPO oft unter folgenden Problemen:

Generalisierungslücke: Das Modell passt sich zu stark an die Trainingsdaten an (Overfitting).
Modus-Kollaps (Mode Collapse): Die Vielfalt der generierten Bilder nimmt drastisch ab.
Instabilität: Bei Out-of-Distribution-Prompts können die Vorhersagen unglatt werden oder katastrophales Vergessen auftreten.

Das Paper zeigt in einem 2D-Experiment, dass DPO dazu neigt, die Wahrscheinlichkeitsmasse sowohl für positive als auch für negative Samples zu verringern, was zu einem Zusammenbruch der Verteilung führt.

2. Methodik: Preference-Guided Diffusion (PGD)

Die Autoren schlagen einen Paradigmenwechsel vor: Statt das Basismodell vollständig neu zu trainieren, betrachten sie das Alignment als eine Inferenzzeit-Steuerung mittels Classifier-Free Guidance (CFG).

Kernidee

Die Grundidee ist, ein feinabgestimmtes Modell als externen Kontrollsignal zu nutzen, das während der Inferenz (Sampling) auf das ungerichtete Basismodell wirkt. Dies entspricht der CFG-Formel, bei der eine bedingte Vorhersage mit einer unbedingten Vorhersage kombiniert wird.

Die Autoren stellen zwei Varianten vor:

A. Preference-Guided Diffusion (PGD)

Prinzip: Ein Basismodell ( $\pi_{ref}$ ) dient als Prior (unbedingte Verteilung). Ein separat feinabgestimmtes Modell ( $\pi_{DPO}$ ), das auf Präferenzdaten trainiert wurde, dient als bedingte Vorhersage.
Inferenz: Die Score-Funktion für die Generierung wird wie folgt berechnet:
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
Dabei ist $w$ das Guidance-Gewicht.
Vorteil: Das feinabgestimmte Modell muss nicht vollständig konvergieren (wenige Trainingsiterationen reichen), da das Basismodell die Generalisierung und Diversität sicherstellt. Dies verhindert Overfitting und Modus-Kollaps effektiv.

B. Contrastive PGD (cPGD)

Erweiterung: Um die Generalisierung weiter zu verbessern, wird das Lernen in zwei separate Module zerlegt:
1. Ein Modell ( $\theta_+$ ), das nur auf positiven (bevorzugten) Daten trainiert wird.
2. Ein Modell ( $\theta_-$ ), das nur auf negativen (nicht bevorzugten) Daten trainiert wird.
Inferenz: Der Guidance-Vektor wird durch die Differenz der beiden Modelle gebildet (Kontrastives Lernen):
$\nabla \log \pi_{cPGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{\theta_+}(x) - \nabla \log \pi_{\theta_-}(x))$
Theoretischer Hintergrund: Dies entspricht einer dynamischen Neugewichtung der DPO-Verlustgradienten. Die negative Komponente wirkt als „abstoßende" Kraft, die das Modell von unerwünschten Mustern wegtreibt, während die positive Komponente es zu gewünschten Mustern zieht. Dies wird als Maximum-Entropy-Optimierung interpretiert.

3. Wichtige Beiträge

Neue Perspektive auf Alignment: Das Paper reformuliert Diffusions-Alignment als Spezialfall von CFG-Inferenz, anstatt es als reines Fine-Tuning-Problem zu betrachten.
PGD und cPGD: Einführung zweier einfacher, aber effektiver Methoden, die ohne erneutes Training des Basismodells auskommen und Overfitting vermeiden.
Plug-and-Play-Modularität: Die feinabgestimmten Module sind unabhängig vom spezifischen Basismodell. Ein auf SDXL trainiertes PGD-Modul kann beispielsweise auch auf anderen Architekturen (wie KOALA) angewendet werden, solange der latente Raum (VAE) kompatibel ist.
Pareto-Verbesserungen: Die Methoden erreichen gleichzeitig höhere Belohnungswerte (Reward), niedrigere FID-Scores (bessere Ähnlichkeit zur Prior-Verteilung) und höhere Diversität im Vergleich zu DPO-Baselines.

4. Ergebnisse

Die Methoden wurden auf Stable Diffusion 1.5 (SD1.5) und Stable Diffusion XL (SDXL) mit den Datensätzen Pick-a-Pic v2 und HPDv3 evaluiert.

Quantitative Ergebnisse:
- PGD und cPGD übertreffen konsistent Baselines wie Diffusion-DPO, Diffusion-KTO, MaPO und NPO.
- Auf SDXL erreicht cPGD eine durchschnittliche Win-Rate (Gewinnrate gegen das Basismodell) von über 70-80% auf verschiedenen Metriken (PickScore, HPSv2/v3, ImageReward).
- Im Vergleich zu DPO zeigen die vorgeschlagenen Methoden signifikant weniger Modus-Kollaps und behalten die Vielfalt der Bilder besser bei.
Qualitative Ergebnisse:
- Die generierten Bilder folgen den Textanweisungen präziser und weisen eine höhere ästhetische Qualität auf.
- Eine menschliche Evaluierung (Human Preference Study) zeigte, dass PGD mit 45,5% der Stimmen die höchste Präferenz erhielt, gefolgt von cPGD (33,0%), während DPO nur 29,5% erreichte.
Effizienz:
- Da die Guidance nur während der Inferenz angewendet wird, entfällt das aufwendige Training eines neuen Basismodells.
- Die Autoren zeigen zudem, dass die Mehr-Modell-Inferenz durch Distillation (Zusammenfassen in ein einzelnes Modell) beschleunigt werden kann, ohne signifikante Qualitätsverluste.

5. Bedeutung und Fazit

Dieses Paper bietet einen fundamental neuen Ansatz für das Alignment von Diffusionsmodellen. Indem es die Stärken von Classifier-Free Guidance nutzt, um Overfitting-Probleme von DPO zu umgehen, ermöglicht es eine robustere, diversere und besser kontrollierbare Generierung von Bildern.

Die Methode ist besonders wertvoll, weil sie:

Ressourceneffizient ist (kein vollständiges Re-Training).
Generalisiert (funktioniert gut auf verschiedenen Datensätzen und Modellarchitekturen).
Kontrollierbar ist (durch den Guidance-Parameter $w$ kann der Trade-off zwischen Präzision und Diversität gesteuert werden).

Zusammenfassend demonstriert die Arbeit, dass die Trennung von Basis-Prior und Präferenzsignal zur Inferenzzeit ein überlegener Weg ist, um Diffusionsmodelle an menschliche Vorlieben anzupassen, als das direkte Fine-Tuning auf Präferenzpaare.