Scale-wise Distillation of Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Der schnelle Künstler: Wie SwD KI-Bilder in einem Rutsch malt

Stell dir vor, du möchtest ein riesiges, detailreiches Ölgemälde erstellen. Normalerweise arbeiten KI-Künstler (die sogenannten Diffusionsmodelle) wie sehr sorgfältige Handwerker: Sie beginnen mit einem komplett verschmierten, verrauschten Bild und entfernen Schritt für Schritt das Rauschen, um das Bild klarer zu machen.

Das Problem: Um ein perfektes Bild zu bekommen, müssen sie diesen Prozess 20 bis 50 Mal wiederholen. Das ist wie wenn du versuchen würdest, ein Haus zu bauen, indem du jeden Tag nur einen einzigen Ziegelstein setzt. Es dauert ewig!

Bisherige Methoden haben versucht, diesen Prozess zu beschleunigen, indem sie den Handwerker gezwungen haben, schneller zu arbeiten (z. B. nur noch 4 Schritte). Aber das hat oft zu schlechterer Qualität geführt, als ob der Handwerker in Eile die Details vergisst.

Die Forscher von Yandex haben nun eine neue Idee namens SwD (Scale-wise Distillation) entwickelt. Hier ist, wie es funktioniert, ohne Fachchinesisch:

1. Die Idee: Erst grob, dann fein (Der "Skizzen"-Ansatz)

Stell dir vor, du malst ein Porträt.

Der alte Weg: Du nimmst sofort eine winzige, hochauflösende Leinwand und versuchst, jedes Haar und jede Pupille sofort perfekt zu setzen. Das ist schwer und langsam.
Der SwD-Weg: Du beginnst auf einem kleinen, groben Stück Papier (niedrige Auflösung). Dort malst du nur die groben Umrisse und die großen Farben. Das geht super schnell.
Dann nimmst du diese grobe Skizze, vergrößerst sie (upsampling) und fügst auf der größeren Leinwand die Details hinzu.
Dann machst du das noch einmal auf einer noch größeren Leinwand, bis du am Ende ein riesiges, hochauflösendes Meisterwerk hast.

Der Clou: SwD macht genau das. Es beginnt die Bildgenerierung bei niedriger Auflösung (wo das Bild noch sehr "verrauscht" und unscharf ist) und steigert die Auflösung Schritt für Schritt. Da in den frühen, verrauschten Phasen ohnehin keine feinen Details sichtbar sind, spart man sich die Rechenleistung für die hohen Auflösungen am Anfang. Das ist wie beim Bauen eines Hauses: Erst das Fundament und die Wände (grob), dann die Fenster und die Tapete (fein).

2. Der neue Trick: Der "Gleichheits-Messer" (MMD)

Neben dem neuen Arbeitsablauf haben die Forscher auch einen neuen "Lehrer" für den KI-Schüler eingefunden.

Stell dir vor, ein Schüler (das schnelle Modell) soll lernen, wie ein Meister (das langsame, teure Modell) malt.

Früher: Der Lehrer sagte: "Mache genau diesen einen Pinselstrich an dieser Stelle." Das war sehr streng und schwer zu lernen.
Mit SwD: Der Lehrer sagt: "Schau dir die Stimmung und den Farbton dieses Bildausschnitts an. Deine Version muss sich genauso anfühlen wie meine, auch wenn die Pinselstriche anders sind."

Sie nutzen dafür eine mathematische Methode namens Maximum Mean Discrepancy (MMD). Man kann sich das wie einen "Gleichheits-Messer" vorstellen, der prüft, ob die Textur und das Gefühl eines kleinen Bildausschnitts (Patch) beim Schüler und beim Lehrer gleich sind. Das hilft dem Schüler, viel schneller zu lernen und bessere Ergebnisse zu erzielen, ohne dass er den Lehrer 1:1 kopieren muss.

3. Das Ergebnis: Blitzschnell und trotzdem toll

Durch diese Kombination aus "erst grob, dann fein" und dem neuen "Gleichheits-Messer" erreichen die Modelle erstaunliche Ergebnisse:

Geschwindigkeit: Sie sind bis zu 10-mal schneller als die alten Modelle.
Qualität: Die Bilder sind genauso gut, manchmal sogar besser, als wenn man sie in einem Rutsch (mit voller Auflösung) berechnet hätte.
Video: Das funktioniert sogar für Videos! Statt 21 Einzelbilder nacheinander zu berechnen, fängt SwD mit wenigen Frames an und fügt dann schrittweise mehr hinzu.

Zusammenfassung in einem Satz

SwD ist wie ein genialer Künstler, der erst eine schnelle Skizze auf einem kleinen Zettel macht und diese dann schrittweise vergrößert und verfeinert, anstatt sofort versuchen, jedes Detail auf einer riesigen Leinwand perfekt zu setzen – und das alles, ohne dass das Endergebnis an Qualität verliert.

Warum ist das wichtig?
Weil wir so komplexe KI-Bilder und Videos in Sekunden statt in Minuten oder Stunden erstellen können. Das macht die Technologie für alle zugänglich, nicht nur für riesige Rechenzentren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scale-Wise Distillation of Diffusion Models (SwD)

Veröffentlicht: ICLR 2026
Autoren: Nikita Starodubcev et al. (Yandex Research, HSE University)

1. Problemstellung

Diffusionsmodelle (DMs) für die Erzeugung von Bildern und Videos sind zwar qualitativ hochwertig, leiden jedoch unter einem erheblichen Geschwindigkeitsnachteil. Der sequentielle Sampling-Prozess erfordert typischerweise 20 bis 50 Schritte, was eine hohe Latenz verursacht.

Aktueller Stand: Bestehende Distillationsmethoden (z. B. DMD2, ADD) haben es geschafft, die Schrittzahl auf ca. 4 zu reduzieren.
Herausforderung: Eine weitere Reduzierung auf 1–2 Schritte führt oft zu signifikanten Qualitätsverlusten.
Limitierung: Die meisten aktuellen Few-Step-Modelle arbeiten während des gesamten Diffusionsprozesses mit einer festen Auflösung. Dies ist ineffizient, da in den frühen, stark verrauschten Phasen des Diffusionsprozesses hochfrequente Details (hohe räumliche und zeitliche Frequenzen) noch nicht vorhanden oder durch das Rauschen maskiert sind. Die Berechnung dieser Details in niedrigen Rauschzuständen ist daher redundant.

2. Methodik: Scale-wise Distillation (SwD)

Die Autoren schlagen einen neuen Ansatz vor, der die Effizienzsteigerung nicht nur durch weniger Schritte, sondern durch eine progressive Erhöhung der Auflösung während des Generierungsprozesses erreicht.

A. Spektrale Analyse des Latent Raums

Bevor die Methode entwickelt wurde, führten die Autoren eine spektrale Analyse (Power Spectral Density) der Latent-Räume etablierter Modelle (SD3.5, Wan2.1) durch.

Erkenntnis: Ähnlich wie bei natürlichen Bildern folgt das Frequenzspektrum im Latent-Raum einem Potenzgesetz.
Beobachtung: Der Rauschprozess filtert hohe Frequenzen schrittweise heraus. Bei hohem Rauschpegel (frühe Zeitpunkte $t$ ) sind hochfrequente Anteile maskiert.
Implikation: Es ist möglich, in den frühen Schritten des Diffusionsprozesses mit einer niedrigeren räumlichen und zeitlichen Auflösung zu arbeiten, ohne Informationsverluste zu riskieren. Die Auflösung kann schrittweise erhöht werden, sobald das Rauschen abnimmt und neue Frequenzen sichtbar werden.

B. Das SwD-Framework

SwD verwandelt ein beliebiges vortrainiertes Diffusionsmodell in einen Few-Step-Generator mit progressiver Auflösung.

Schedule: Ein Zeitplan $[t_1, ..., t_N]$ wird mit einem nicht-absteigenden Auflösungsplan $[s_1, ..., s_N]$ gepaart.
Sampling-Prozess:
- Der Prozess beginnt mit Gaußschem Rauschen bei der niedrigsten Auflösung $s_1$ .
- In jedem Schritt wird das vorherige entrauschte Vorhersagebild $\hat{x}_0$ hochskaliert (upsampled).
- Das hochskalierte Bild wird gemäß dem Zeitplan neu verrauscht (re-noised), um das korrekte Rauschstatistik für die höhere Auflösung zu erhalten.
- Das Modell sagt dann das saubere Bild $\hat{x}_0$ bei der aktuellen höheren Auflösung $s_i$ vorher.
Upsampling-Strategie: Um Artefakte zu vermeiden, wird das saubere Vorhersagebild ( $\hat{x}_0$ ) hochskaliert und danach verrauscht (statt das verrauschte Bild direkt hochzuskalieren). Dies erhält die korrekte Varianz des Rauschens.

C. Neuer Distillations-Loss: Patch-Level MMD

Neben dem Framework führen die Autoren einen neuen Loss ein, der auf dem Maximum Mean Discrepancy (MMD) basiert.

Konzept: Anstatt nur die Verteilung der Rohdaten zu matchen, wird der MMD im Feature-Raum eines vortrainierten Diffusionsmodells berechnet.
Implementierung:
- Features werden aus einem mittleren Transformer-Block des Lehrers extrahiert.
- Sowohl generierte als auch Ziel-Proben werden vor der Feature-Extraktion leicht verrauscht (um strukturierte Signale bei verschiedenen Rauschpegeln zu nutzen).
- Der Loss minimiert den Unterschied zwischen den Mittelwerten der räumlichen Token-Features (Patch-Level) pro Bild.
Vorteil: Dieser Loss ist rechnerisch effizient (kein zusätzlicher trainierbarer Diskriminator nötig), beschleunigt die Konvergenz und funktioniert auch als eigenständiger Distillations-Loss sehr gut.

3. Schlüsselbeiträge

Erster Scale-Wise Ansatz: SwD ist das erste Framework, das die spektrale Autoregression in latenten Diffusionsmodellen nutzt, um die Auflösung während des Few-Step-Sampling dynamisch anzupassen.
MMD-basierter Loss: Einführung eines einfachen, aber leistungsstarken Patch-Level MMD-Loss für Diffusionsdistillation, der keine zusätzlichen trainierbaren Modelle erfordert.
Effizienz ohne Qualitätsverlust: Die Methode erreicht eine signifikante Beschleunigung (bis zu 10x schneller als Lehrermodelle) bei gleichzeitiger Beibehaltung oder sogar Verbesserung der Bildqualität im Vergleich zu Full-Resolution-Few-Step-Modellen.

4. Ergebnisse

Die Methode wurde an State-of-the-Art-Modellen getestet (SDXL, SD3.5 Medium/Large, FLUX.1-dev für Bilder; Wan2.1 für Videos).

Geschwindigkeit:
- Bilder: SwD erreicht eine ca. 2-fache Beschleunigung gegenüber Full-Resolution-Few-Step-Modellen bei gleicher Schrittzahl.
- Videos: Bis zu 3-fache Beschleunigung im Vergleich zu Full-Resolution-Alternativen.
- Im Vergleich zu den ursprünglichen Lehrmodellen sind die SwD-Modelle über 10x schneller.
Qualität:
- Automatische Metriken: SwD erreicht in Metriken wie FID, HPSv3, ImageReward und GenEval oft die besten Werte innerhalb ihrer Modellfamilie.
- Human Preference: In Studien mit menschlichen Assessoren wurde SwD in den Kategorien Bildästhetik und Bildkomplexität oft als besser eingestuft als die Lehrermodelle und andere Distillationsmethoden (z. B. Turbo, Hyper-SD), bei gleichzeitig vergleichbarer Textrelevanz.
- Vergleich Full-Resolution vs. Scale-Wise: Bei gleicher Rechenbudget (gleiche Anzahl an Schritten) übertrifft SwD Full-Resolution-Modelle deutlich, insbesondere bei der Reduzierung von Artefakten (Defekten).

5. Bedeutung und Fazit

Das Paper zeigt, dass die Optimierung der Effizienz von Diffusionsmodellen nicht nur durch das Reduzieren der Schrittzahl, sondern auch durch die intelligente Anpassung der Rechenressourcen (Auflösung) an den Informationsgehalt des Rauschzustands erfolgen kann.

Paradigmenwechsel: Statt starrer Full-Resolution-Generierung in wenigen Schritten nutzt SwD die inhärente Struktur des Diffusionsprozesses (niedrige Frequenzen zuerst, hohe Frequenzen später).
Praktische Relevanz: Die Kombination aus Scale-Wise-Distillation und dem MMD-Loss bietet einen robusten, skalierbaren Weg, um hochauflösende Bild- und Videoerzeugung in Echtzeit oder nahezu Echtzeit zu ermöglichen, ohne auf die Qualität großer Modelle verzichten zu müssen.
Zukunft: Der vorgeschlagene MMD-Loss könnte als Standard-Baseline für zukünftige Distillationspipelines dienen, da er einfach zu implementieren ist und keine komplexen adversarialen Trainingszyklen benötigt.

Zusammenfassend stellt SwD einen bedeutenden Fortschritt dar, der die Lücke zwischen der hohen Qualität von Diffusionsmodellen und der Notwendigkeit schneller Inferenz schließt, indem es die "versteckte" Effizienz in den latenten Räumen der Modelle freilegt.