Denoising Diffusion Probabilistic Models

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Arbeit „Denoising Diffusion Probabilistic Models" (DDPM) von Jonathan Ho und seinem Team, verpackt in eine Geschichte für den Alltag.

Das große Rätsel: Vom Rauschen zum Bild

Stell dir vor, du hast ein wunderschönes, scharfes Foto. Jetzt nimmst du einen Mixer und wirfst das Bild hinein. Schritt für Schritt füllst du den Mixer mit immer mehr Milch (Rauschen), bis das Bild völlig verschwimmt und nur noch eine graue Suppe ist. Das ist das Vorwärts-Modell (Diffusion). Jeder Schritt ist vorhersehbar: Das Bild wird einfach immer unkenntlicher.

Die große Frage der Forscher war: Können wir den Mixer rückwärts drehen? Können wir aus dieser grauen Suppe wieder das ursprüngliche, scharfe Foto zurückgewinnen?

Bisher war das für Computer extrem schwierig. Die neuen „Diffusionsmodelle" aus diesem Papier sagen: Ja, das können wir! Und zwar so gut, dass die Ergebnisse oft besser aussehen als bei anderen bekannten Methoden (wie GANs).

Die Magie: Ein Detektivspiel mit Rauschen

Wie funktioniert das? Stell dir den Prozess wie ein Detektivspiel vor:

Der Trainer (Das Training):
Der Computer lernt nicht, Bilder direkt zu zeichnen. Stattdessen lernt er, Rauschen zu entfernen.
- Der Computer bekommt ein Bild (z. B. eine Katze).
- Der Computer fügt absichtlich ein bisschen Rauschen hinzu (wie ein leichtes Filmkorn).
- Der Computer muss nun erraten: „Welches Rauschen habe ich gerade hinzugefügt?"
- Er versucht, das Rauschen zu entfernen, um das Original wiederherzustellen.
- Dieser Prozess wird millionenfach wiederholt, mit immer mehr Rauschen, bis das Bild fast nur noch aus statischem Rauschen besteht. Der Computer lernt dabei, wie Rauschen aussieht und wie man es Schritt für Schritt wegnimmt.
Der Künstler (Die Generierung):
Wenn der Computer fertig gelernt hat, startet er das Spiel von vorne, aber andersherum:
- Er beginnt mit einem völlig zufälligen, chaotischen Rauschen (wie weißes TV-Rauschen).
- Der Computer fragt sich: „Wenn ich jetzt ein wenig Rauschen wegnähme, was würde dann darunter zum Vorschein kommen?"
- Er entfernt ein bisschen Rauschen. Plötzlich tauchen grobe Formen auf (vielleicht ein Kreis, der wie ein Kopf aussieht).
- Er entfernt noch mehr Rauschen. Jetzt werden die Ohren der Katze sichtbar.
- Schritt für Schritt, von grob zu fein, entsteht aus dem Chaos ein perfektes Bild.

Die zwei genialen Tricks der Autoren

Die Autoren haben zwei wichtige Entdeckungen gemacht, die diesen Prozess so erfolgreich machen:

1. Die „Rausch-Vorhersage" (Der einfache Weg)
Früher haben Modelle versucht, das ganze Bild vorherzusagen, das unter dem Rauschen liegt. Das ist wie zu versuchen, ein ganzes Buch aus einem einzelnen Buchstaben zu erraten.
Die Autoren haben einen cleveren Trick angewandt: Der Computer soll nicht das Bild vorhersagen, sondern nur das Rauschen, das er gerade sieht.

Analogie: Stell dir vor, du siehst einen verschmierten Fingerabdruck. Anstatt zu raten, wer die Person ist, sagst du einfach: „Hier ist der Schmutz, den ich gerade wegwischen muss." Wenn du den Schmutz wegwischst, bleibt der Abdruck übrig. Das macht die Aufgabe für den Computer viel einfacher und stabiler.

2. Der „Langsame Entschlüsselungs"-Trick (Progressive Decompression)
Stell dir vor, du hast ein stark komprimiertes ZIP-Datei. Beim Entpacken siehst du erst die grobe Struktur, dann die Farben, dann die Details.
Das Diffusionsmodell macht genau das, nur in umgekehrter Reihenfolge:

Es beginnt mit einem Haufen Rauschen.
Zuerst entstehen nur grobe Strukturen (ein Haus, ein Baum).
Dann kommen die Farben.
Ganz zum Schluss werden die feinen Details hinzugefügt (die Textur der Rinde, die Fensterläden).
Das ist wie ein Künstler, der erst einen groben Entwurf auf die Leinwand wirft und sich dann langsam vorarbeitet. Das Ergebnis ist oft natürlicher und weniger „künstlich" als bei anderen Methoden.

Warum ist das so wichtig?

Qualität: Die Bilder, die dieses Modell erzeugt, sind so scharf und realistisch, dass sie oft besser sind als die besten bisherigen KI-Modelle. Auf dem berühmten CIFAR10-Datensatz (kleine Bilder) haben sie einen neuen Weltrekord aufgestellt.
Vielseitigkeit: Es funktioniert nicht nur für Bilder, sondern könnte theoretisch für Musik, Text oder 3D-Modelle genutzt werden.
Verständlichkeit: Im Gegensatz zu manchen anderen KI-Modellen, die wie eine „Black Box" funktionieren, ist dieser Prozess sehr logisch aufgebaut: Rauschen hinzufügen -> Rauschen entfernen -> Bild entsteht.

Zusammenfassung in einem Satz

Die Autoren haben ein KI-System entwickelt, das lernt, wie man aus einem Haufen zufälligen Rauschens Schritt für Schritt ein perfektes Bild „herauswaschen" kann, indem es trainiert wird, das Rauschen in jedem Schritt zu erkennen und zu entfernen – ähnlich wie ein Restaurator, der ein altes, schmutziges Gemälde langsam und sorgfältig reinigt, bis die ursprüngliche Schönheit wieder zum Vorschein kommt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers "Denoising Diffusion Probabilistic Models" (DDPM) von Ho et al. auf Deutsch:

1. Problemstellung

Deep Generative Models (wie GANs, VAEs, autoregressive Modelle und Flows) haben in den letzten Jahren beeindruckende Ergebnisse bei der Synthese von Bildern und Audio erzielt. Dennoch bestehen oft Kompromisse zwischen Sample-Qualität, Trainingsstabilität und der Fähigkeit, die Datenwahrscheinlichkeit (Likelihood) zu schätzen.

GANs erzeugen oft hochwertige Bilder, leiden aber unter Trainingsinstabilität und können keine Likelihoods berechnen.
Likelihood-basierte Modelle (z. B. VAEs, Flows) bieten gute Likelihood-Schätzungen, erreichen aber oft nicht die gleiche Sample-Qualität wie GANs.
Diffusionsmodelle (basierend auf nicht-gleichgewichtiger Thermodynamik) wurden bisher als theoretisch interessant, aber in der Praxis nicht für die Erzeugung hochqualitativer Samples angesehen.

Das Ziel dieses Papers ist es, zu zeigen, dass Diffusionsmodelle durch eine spezifische Parametrisierung und ein modifiziertes Trainingsziel konkurrenzfähige oder sogar überlegene Sample-Qualität im Vergleich zum State-of-the-Art (SOTA) erreichen können, ohne dabei auf Likelihood-Schätzungen zu verzichten.

2. Methodik

Das Paper stellt Diffusion Probabilistic Models (DDPM) vor, eine Klasse von latenten Variablenmodellen, die auf einem Markov-Ketten-Ansatz basieren.

A. Der Diffusionsprozess (Vorwärtsprozess)

Der Vorwärtsprozess $q(x_{1:T}|x_0)$ ist ein festgelegter Markov-Prozess, der schrittweise Rauschen zu den Daten $x_0$ hinzufügt, bis am Ende $x_T$ eine reine Gauß-Verteilung $\mathcal{N}(0, I)$ ist.

Die Übergänge sind definiert als: $q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$ .
Ein entscheidender Vorteil ist, dass $x_t$ für einen beliebigen Zeitpunkt $t$ in geschlossener Form berechnet werden kann:
$q(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I)$ , wobei $\bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s)$ .

B. Der Reverse-Prozess (Generierung)

Das Ziel ist es, den umgekehrten Prozess $p_\theta(x_{0:T})$ zu lernen, der das Rauschen schrittweise entfernt, um aus $x_T \sim \mathcal{N}(0, I)$ wieder Daten $x_0$ zu generieren.

Der Reverse-Prozess wird als Markov-Kette mit gelernten Gauß-Übergängen modelliert: $p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$ .

C. Neue Parametrisierung und Verbindung zu Score Matching

Die Autoren leiten eine neue Parametrisierung für den Mittelwert $\mu_\theta$ her. Anstatt direkt den Mittelwert des Vorwärtsprozesses vorherzusagen, parametrisieren sie das Netzwerk so, dass es das Rauschen $\epsilon$ vorhersagt, das zu $x_0$ hinzugefügt wurde.

Die Beziehung lautet: $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$ .
Das Netzwerk $\epsilon_\theta(x_t, t)$ wird trainiert, um $\epsilon$ zu rekonstruieren.
Theoretische Einsicht: Diese Parametrisierung stellt eine Äquivalenz zwischen Diffusionsmodellen und Denoising Score Matching (DSM) über mehrere Rauschpegel her. Das Optimieren der Variational Lower Bound (ELBO) entspricht dem Trainieren eines Langevin-Dynamics-Samplers.

D. Vereinfachtes Trainingsziel ( $L_{simple}$ )

Das ursprüngliche ELBO ist komplex und enthält viele Gewichtungsterme. Die Autoren zeigen, dass ein stark vereinfachtes Ziel, das nur den mittleren quadratischen Fehler (MSE) zwischen dem wahren Rauschen $\epsilon$ und der Vorhersage $\epsilon_\theta$ minimiert, die beste Sample-Qualität liefert:
$L_{simple}(\theta) = \mathbb{E}_{t, x_0, \epsilon} [\| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t) \|^2]$
Dabei wird $t$ gleichmäßig über alle Zeitschritte $1 \dots T$ gewählt. Interessanterweise führt das Weglassen der komplexen Gewichtungsfaktoren des ursprünglichen ELBO zu besseren Ergebnissen, da es dem Netzwerk erlaubt, sich auf schwierigere Denoising-Aufgaben (frühe Zeitschritte mit viel Rauschen) zu konzentrieren.

E. Architektur

Das Modell verwendet ein U-Net als Backbone (ähnlich PixelCNN++), das mit Group Normalization und Self-Attention (bei 16x16 Auflösung) ausgestattet ist. Die Zeitinformation $t$ wird über sinusförmige Positionseingebungen (Transformer-Stil) in das Netzwerk eingespeist.

3. Wichtige Beiträge

Hohe Sample-Qualität: DDPMs erreichen auf CIFAR10 einen FID-Score von 3.17 und einen Inception Score von 9.46. Dies ist ein neuer State-of-the-Art für unbedingte Generierung und übertrifft viele GANs (z. B. BigGAN, StyleGAN2) in der Sample-Qualität.
Äquivalenz zu Score Matching: Die Arbeit zeigt explizit die Verbindung zwischen Diffusionsmodellen, Denoising Score Matching und annealed Langevin Dynamics. Dies rechtfertigt die Verwendung von $\epsilon$ -Vorhersage und vereinfacht das Verständnis des Trainings.
Progressive Lossy Compression: Die Autoren interpretieren den Sampling-Prozess als eine Art progressiver Dekodierung. Sie zeigen, dass die meisten Bits (Information) für imperceptible (unwahrnehmbare) Details verwendet werden. Dies führt zu einer Rate-Distortion-Kurve, die zeigt, dass Diffusionsmodelle hervorragende "lossy" (verlustbehaftete) Kompressionsmodelle sind, auch wenn ihre "lossless" (verlustfreie) Kodierungslänge nicht mit anderen Likelihood-Modellen konkurrieren kann.
Verbindung zu autoregressiven Modellen: Der Sampling-Prozess wird als eine Verallgemeinerung der autoregressiven Dekodierung interpretiert, wobei die "Bit-Reihenfolge" durch den Gaußschen Diffusionsprozess definiert wird, anstatt durch eine feste Pixel-Reihenfolge.

4. Ergebnisse

CIFAR10 (Unconditional):
- FID: 3.17 (SOTA zum Zeitpunkt der Veröffentlichung).
- Inception Score: 9.46.
- Negative Log-Likelihood (NLL): ~3.75 bits/dim (besser als Energy-Based Models, aber schlechter als PixelCNN/Transformers).
LSUN (256x256):
- Die Modelle erreichen eine Sample-Qualität, die mit ProgressiveGAN vergleichbar ist.
- LSUN Bedroom FID: 4.90 (mit einem größeren Modell).
- LSUN Church FID: 7.89.
Ablationsstudien:
- Die Vorhersage von $\epsilon$ (Rauschen) ist der Vorhersage von $\tilde{\mu}$ (Mittelwert) überlegen, insbesondere in Kombination mit dem vereinfachten Ziel $L_{simple}$ .
- Das Lernen der Varianz $\Sigma_\theta$ führt zu instabilerem Training; feste Varianzen funktionieren besser.
- Das vereinfachte Ziel $L_{simple}$ liefert bessere Samples als das vollständige ELBO, obwohl das vollständige ELBO bessere Likelihoods liefert.

5. Bedeutung und Ausblick

Dieses Paper ist ein Meilenstein in der generativen KI. Es beweist, dass Diffusionsmodelle nicht nur theoretisch interessant, sondern praktisch überlegen sein können.

Qualität vs. Likelihood: Es löst das Dilemma, dass Modelle entweder gute Samples oder gute Likelihoods haben müssen. DDPMs bieten beides (wobei die Sample-Qualität im Vordergrund steht).
Stabilität: Im Gegensatz zu GANs sind Diffusionsmodelle sehr stabil zu trainieren und benötigen keine adversarialen Tricks.
Einfluss: Die hier vorgestellten Techniken (insbesondere die $\epsilon$ -Vorhersage und das U-Net mit Zeit-Eingebungen) bilden die Grundlage für fast alle modernen Diffusionsmodelle, einschließlich der späteren Durchbrüche wie DALL-E 2, Stable Diffusion und Midjourney.
Anwendungen: Neben der Bildgenerierung wird die Methode als vielversprechend für Datenkompression, Representation Learning und kreative Anwendungen in Kunst und Design identifiziert.

Zusammenfassend etablieren Ho et al. Diffusionsmodelle als eine der leistungsfähigsten Klassen von Generativen Modellen und legen das theoretische und praktische Fundament für die folgende Welle von Durchbrüchen in der Bildsynthese.

Denoising Diffusion Probabilistic Models

Das große Rätsel: Vom Rauschen zum Bild

Die Magie: Ein Detektivspiel mit Rauschen

Die zwei genialen Tricks der Autoren

Warum ist das so wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. Der Diffusionsprozess (Vorwärtsprozess)

B. Der Reverse-Prozess (Generierung)

C. Neue Parametrisierung und Verbindung zu Score Matching

D. Vereinfachtes Trainingsziel (LsimpleL_{simple}Lsimple​)

E. Architektur

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

D. Vereinfachtes Trainingsziel ( $L_{simple}$ )