There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Each language version is independently generated for its own context, not a direct translation.

Titel: „Es gibt kein VAE": Wie man Bilder direkt aus dem Chaos erschafft

Stell dir vor, du möchtest einen perfekten, fotorealistischen Film drehen. Normalerweise nutzen Regisseure dafür einen Trick: Sie bauen zuerst eine kleine, vereinfachte Skizze der Welt (einen „latenten Raum") und drehen den Film nur auf dieser Skizze. Am Ende wird die Skizze dann in einen echten Film umgewandelt. Das Problem ist: Die Skizze ist nie perfekt. Manchmal fehlen Details, oder die Umwandlung am Ende sieht etwas seltsam aus. Das ist wie bei vielen aktuellen KI-Modellen, die auf einem sogenannten VAE (einem Kompressor) basieren.

Die Autoren dieses Papers sagen: „Warum überhaupt eine Skizze? Wir können den Film direkt drehen!"

Hier ist die einfache Erklärung ihrer neuen Methode, die sie EPG nennen, mit ein paar lustigen Vergleichen:

1. Das Problem: Der „Übersetzer", der Fehler macht

Bisher mussten KI-Modelle Bilder erst in eine Art Geheimsprache (den latenten Raum) übersetzen, um sie zu verarbeiten, und dann zurück ins Deutsche (die Pixel). Dieser Übersetzer (das VAE) macht aber Fehler. Er vergisst Details oder verzerrt die Farben. Das ist, als würdest du versuchen, ein komplexes Gemälde zu kopieren, indem du es erst in eine Skizze umzeichnest und dann versuchst, die Skizze zurück in ein Ölgemälde zu verwandeln. Es geht immer etwas verloren.

2. Die Lösung: Zwei Schritte statt drei

Die Autoren haben eine neue Trainings-Methode entwickelt, die in zwei Phasen abläuft. Stell dir das wie das Lernen eines Malers vor:

Phase 1: Der „Semantik-Lernende" (Das Pre-Training)
Statt das ganze Bild auf einmal zu malen, konzentriert sich die KI zuerst nur auf das Verstehen.

Die Analogie: Stell dir vor, du hast ein Foto, das mit immer mehr Matsch (Rauschen) überzogen wird. Am Ende ist es nur noch ein grauer Klecks.
Die KI lernt in dieser Phase: „Wenn ich diesen Matsch sehe, was war ursprünglich dahinter?" Sie lernt nicht, wie man Pixel malt, sondern wie man die Bedeutung erkennt.
Ein wichtiger Trick: Sie lernt, dass ein leicht verschmutztes Bild und ein stark verschmutztes Bild, die vom selben Ursprung kommen, zusammengehören. Sie lernt also, den „Faden" zu behalten, der vom sauberen Bild zum Matsch führt.
Das Ergebnis: Die KI hat jetzt einen super-intelligenten „Versteher" (den Encoder), der weiß, was ein Hund, ein Auto oder ein Baum ist, auch wenn das Bild verrauscht ist.

Phase 2: Der „Maler" (Das Fine-Tuning)
Jetzt kommt der zweite Teil. Die KI nimmt diesen intelligenten „Versteher" und schließt ihn an einen völlig neuen, zufällig initialisierten „Maler" (den Decoder) an.

Die Analogie: Der Versteher sagt dem Maler: „Hey, hier ist ein verrauschtes Bild von einem Hund. Ich weiß, dass es ein Hund ist. Du musst jetzt die Pixel so malen, dass es wieder ein Hund wird."
Da der Versteher schon alles über die Bedeutung weiß, muss der Maler nicht mehr raten. Er kann sich voll auf das Detailieren konzentrieren.
Das Ganze wird End-to-End trainiert, also Hand in Hand, bis der Maler perfekt wird.

3. Warum ist das so cool? (Die Vorteile)

Kein Übersetzer mehr nötig: Da wir direkt auf den echten Pixeln arbeiten, gibt es keine Verzerrungen durch einen Kompressor. Das Bild ist so scharf, wie es sein soll.
Schneller und billiger: Das Training ist so effizient, dass ihre KI mit nur 30 % der Rechenleistung (der „Brennstoff") bessere Bilder macht als die besten bisherigen Modelle, die den „Übersetzer" (VAE) nutzen.
Der „Ein-Schritt"-Wunder: Besonders beeindruckend ist, dass sie es geschafft haben, ein Consistency Model (ein Modell, das Bilder in einem einzigen Schritt erstellt) direkt auf hohen Auflösungen zu trainieren. Bisher war das unmöglich ohne den „Übersetzer". Ihre KI kann also ein Bild in einem einzigen Blitz erstellen, ohne vorher lange nachzudenken.

Zusammenfassung in einem Satz

Statt einen KI-Künstler zu zwingen, erst eine grobe Skizze zu machen und dann zu malen, haben die Autoren ihm beigebracht, die Welt direkt zu verstehen und sofort das perfekte Bild zu malen – und das alles schneller und schärfer als je zuvor.

Das Fazit: Es gibt kein VAE mehr, das uns im Weg steht. Wir können direkt vom Chaos zum perfekten Bild springen!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Generative Modelle im Pixelraum (Pixel-Space) leiden traditionell unter zwei Hauptnachteilen im Vergleich zu Modellen im latenten Raum (Latent-Space):

Trainingsineffizienz und langsame Konvergenz: Die direkte Verarbeitung hochauflösender Bilder erfordert enorme Rechenleistung und führt zu langsameren Lernprozessen.
Leistungsgefälle: Bisherige pixelbasierte Ansätze erreichen selten die Qualität (gemessen am FID-Score) und die Effizienz von Modellen, die auf einem vortrainierten Variational Autoencoder (VAE) basieren (wie z. B. Latent Diffusion Models).

Das Abhängen von VAEs bringt jedoch eigene Probleme mit sich:

Das Training eines VAE ist schwierig (Balance zwischen Kompression und Rekonstruktionsqualität).
VAEs stellen einen festen Flaschenhals dar; die generative Leistung ist durch die Kapazität des VAE begrenzt und kann sich nicht flexibel an neue Daten anpassen.
Rekonstruktionen für Latents fernab der Trainingsverteilung sind oft unvollkommen.

Ziel der Autoren ist es, diese Lücke zu schließen und hochqualitative, effiziente Generativmodelle direkt im Pixelraum zu trainieren, ohne auf externe VAEs zurückzugreifen.

2. Methodik

Die Autoren stellen ein neuartiges zweistufiges Trainingsframework vor, das von selbstüberwachtem Lernen (Self-Supervised Learning, SSL) inspiriert ist. Das Kernkonzept ist die Dekomposition der Rollen von Encoder und Decoder, ähnlich wie bei Bildklassifikatoren.

Stufe 1: Selbstüberwachtes Vortraining (Pre-Training)

In dieser Phase wird ein Encoder trainiert, um semantisch bedeutungsvolle Merkmale aus Bildern zu extrahieren.

Ziel: Der Encoder lernt visuelle Semantik aus sauberen Bildern und richtet diese entlang deterministischer Stichprobenbahnen (ODE-Trajektorien) aus, die vom reinen Gaußschen Rauschen zur Datenverteilung führen.
Verlustfunktion: Die Methode kombiniert zwei Verluste:
1. Kontrastiver Verlust (Contrastive Loss): Nutzt augmentierte Datenpaare, um allgemeine visuelle Semantik zu lernen.
2. Repräsentations-Konsistenz-Verlust (Representation Consistency Loss): Dies ist der innovative Kern. Der Encoder wird trainiert, um Punkte auf derselben ODE-Trajektorie (z. B. ein Bild mit Rauschlevel $t$ und das entsprechende Bild mit Rauschlevel $t-1$ ) im Merkmalsraum auszurichten. Dies stellt sicher, dass die Repräsentationen über verschiedene Rauschlevel hinweg konsistent sind.
Besonderheit: Im Gegensatz zu herkömmlichem SSL, das bei starkem Rauschen oft scheitert (Repräsentationskollaps), nutzt dieser Ansatz die Struktur der Diffusionspfade. Ein linear interpolierter Temperatur-Schedule ( $\tau$ ) stabilisiert das Training in frühen Phasen.

Stufe 2: End-to-End Fine-Tuning

Nach dem Vortraining wird der Encoder mit einem zufällig initialisierten Decoder kombiniert.

Der gesamte Modellstapel (Encoder + Decoder) wird end-to-end für spezifische Generativaufgaben feinabgestimmt.
Anwendung: Das Framework funktioniert sowohl für Diffusionsmodelle (Denoising Objective) als auch für Konsistenzmodelle (Consistency Models).
Architektur: Als Backbone wird ein Vision Transformer (ViT) verwendet. Um die Effizienz bei verschiedenen Auflösungen zu erhalten, wird die Patch-Größe proportional zur Bildauflösung angepasst (z. B. $16\times16 $für 256px,$ 32\times32$ für 512px), um die Token-Länge konstant zu halten.
Konsistenz-Training: Um die langsame Konvergenz von Konsistenzmodellen zu überwinden, wird ein zusätzlicher Hilfsverlust eingeführt, der die Ausgabe des Modells mit dem ursprünglichen sauberen Bild vergleicht (unter Verwendung eines eingefrorenen Kopie des vortrainierten Encoders als Supervisor).

3. Schlüsselbeiträge

Neues Trainingsparadigma: Die Autoren etablieren, dass das Training von Diffusionsmodellen als selbstüberwachtes Lernproblem formuliert werden kann, bei dem der Encoder für Semantik und der Decoder für die Pixelgenerierung zuständig ist.
Überwindung des VAE-Flaschenhalses: Es wird gezeigt, dass pixelbasierte Modelle ohne VAE die Leistung und Effizienz latenter Modelle erreichen oder übertreffen können.
Erster Erfolg bei Konsistenzmodellen im Pixelraum: Zum ersten Mal wurde ein Konsistenzmodell erfolgreich direkt auf hochauflösenden Bildern (ImageNet-256) trainiert, ohne auf vortrainierte VAEs oder Diffusionsmodelle als Initialisierung zurückzugreifen.
Skalierbarkeit und Effizienz: Durch die Anpassung der Patch-Größe bleibt die Rechenkomplexität (GFLOPs) über verschiedene Auflösungen hinweg effizient.

4. Ergebnisse

Die Methode wurde auf dem ImageNet-Datensatz evaluiert und erzielt State-of-the-Art (SOTA) Ergebnisse:

Diffusionsmodelle:
- Auf ImageNet-256 erreicht das Modell einen FID von 1,58 (mit 75 NFEs). Dies ist ein deutlicher Vorsprung gegenüber vorherigen pixelbasierten Methoden und übertrifft latente Modelle wie DiT-XL/2 (FID 2,27) bei deutlich geringerem Rechenaufwand.
- Auf ImageNet-512 wird ein FID von 2,35 erreicht.
- Das Modell benötigt nur ca. 30% des Trainings-Rechenaufwands von DiT, um bessere Ergebnisse zu erzielen.
Konsistenzmodelle (Few-Step):
- Das Modell erreicht in einem einzigen Schritt (1 NFE) einen FID von 8,82 auf ImageNet-256. Dies übertrifft latente Konsistenzmodelle (z. B. iCT-XL/2 mit FID 34,24) massiv.
Effizienz:
- Im Vergleich zu DiT-XL/2 benötigt das EPG-Modell (EPG-XXL/16) nur 160 Stunden Trainingszeit auf 8x H200 GPUs (inkl. Pre-Training), während DiT allein 506 Stunden benötigt, um einen schlechteren FID (2,27 vs. 1,87) zu erreichen.

5. Bedeutung und Fazit

Dieses Paper stellt einen Paradigmenwechsel in der generativen Bildsynthese dar. Es beweist, dass die Abhängigkeit von VAEs nicht zwingend notwendig ist, um hochqualitative Ergebnisse zu erzielen.

Technischer Durchbruch: Die Kombination aus selbstüberwachtem Vortraining und end-to-end Feinabstimmung ermöglicht es, die semantische Konsistenz über Rauschlevel hinweg zu lernen, was für pixelbasierte Modelle bisher ein ungelöstes Problem war.
Praktische Relevanz: Die Methode senkt die Einstiegshürde für das Training von Generativmodellen, da keine komplexen VAE-Pre-Trainings mehr erforderlich sind. Sie ist besonders skalierbar und effizient.
Zukunftsausblick: Obwohl die Methode bereits SOTA-Ergebnisse liefert, zeigen die Autoren, dass durch weitere Skalierung des Rechenaufwands (mehr Pre-Training-Compute) die Lücke zu den absolut besten latenten Modellen (wie REPA oder RAE) weiter geschlossen werden kann.

Zusammenfassend bietet „THERE IS NO VAE" einen robusten, effizienten und skalierbaren Weg, um Generativmodelle direkt im Pixelraum zu trainieren, und setzt neue Maßstäbe für Qualität und Geschwindigkeit.

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

1. Das Problem: Der „Übersetzer", der Fehler macht

2. Die Lösung: Zwei Schritte statt drei

3. Warum ist das so cool? (Die Vorteile)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

Stufe 1: Selbstüberwachtes Vortraining (Pre-Training)

Stufe 2: End-to-End Fine-Tuning

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy