AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen genialen Künstler (den sogenannten Diffusions-Modell) trainieren, der wunderschöne Bilder malen kann. Aber dieser Künstler ist noch ein bisschen chaotisch. Er versteht die Welt nicht in klaren Konzepten wie „Hund", „Auto" oder „Sonnenuntergang", sondern eher in einem Wirrwarr aus Pixeln und Farben.

Um ihm zu helfen, braucht er einen Übersetzer (einen sogenannten Tokenizer). Dieser Übersetzer nimmt das rohe Bild, fasst es zusammen und gibt dem Künstler eine Art „Zusammenfassung" oder „Gedächtnisstütze" in einer geheimen Sprache (dem latenten Raum), die der Künstler besser verstehen kann.

Bisher waren diese Übersetzer wie dumme Fotokopierer. Sie waren darauf trainiert, das Bild so genau wie möglich nachzubauen (Rekonstruktion). Das Problem: Sie merkten sich die Details (die Farbe der Blätter, die Textur des Steins), aber sie vergaßen oft die Bedeutung des Bildes. Wenn der Künstler dann ein Bild malen sollte, landete er oft in einem chaotischen Raum, in dem er nicht wusste, was er eigentlich malen sollte.

AlignTok ist eine neue, clevere Methode, um diesen Übersetzer zu bauen. Hier ist die Idee in einfachen Schritten:

1. Das Problem: Der „dumme" Übersetzer

Stell dir vor, du willst jemanden lehren, ein Buch zu verstehen. Die alte Methode war: „Lies das Buch, schreibe es wortwörtlich ab und versuche, es später wiederherzustellen."
Das Ergebnis ist ein Übersetzer, der zwar perfekt schreiben kann, aber den Inhalt des Buches nicht wirklich versteht. Er weiß nicht, dass eine „Katze" ein Tier ist, sondern nur, dass es aus bestimmten Pixeln besteht.

2. Die Lösung: Der „weise" Mentor

Die Autoren von AlignTok haben eine geniale Idee: Warum soll unser Übersetzer die Bedeutung des Bildes erst mühsam von Null an lernen? Warum nutzen wir nicht einen weisen Mentor, der das schon kann?

In der Welt der KI gibt es bereits riesige, vortrainierte Modelle (wie DINOv2), die Millionen von Bildern gesehen haben und die Welt verstehen. Sie wissen genau, was ein Hund ist, was ein Auto ist, und wie sich diese Dinge unterscheiden. Sie sind wie ein erfahrener Kunstkritiker.

AlignTok macht folgendes:
Es nimmt diesen weisen Mentor und sagt: „Du bist der Experte für die Bedeutung. Du darfst nicht verändert werden. Wir bauen nur einen kleinen Adapter (einen Dolmetscher) und einen Maler (Decoder) drumherum, damit du deine Weisheit in die Sprache des Künstlers übersetzen kannst."

3. Der Drei-Schritte-Tanz (Die Methode)

Stell dir den Trainingsprozess wie das Einstellen eines komplexen Musikinstruments vor:

Schritt 1: Die Verbindung herstellen (Latent Alignment)
Der Mentor (der vortrainierte Encoder) ist festgefroren. Wir trainieren nur den kleinen Dolmetscher (Adapter) und den Maler (Decoder).
- Analogie: Wir sagen dem Dolmetscher: „Nimm das, was der Mentor sagt, und schreibe es in die Sprache des Künstlers um." Der Maler lernt, aus dieser Sprache wieder ein Bild zu machen.
- Ergebnis: Der Künstler bekommt jetzt eine Zusammenfassung, die Bedeutung hat. Aber das Bild ist noch etwas unscharf, weil der Mentor nur die groben Ideen liefert, nicht die feinen Details.
Schritt 2: Die Details hinzufügen, ohne die Seele zu verlieren (Perceptual Alignment)
Jetzt erlauben wir dem Mentor, sich ein bisschen zu bewegen (wir trainieren ihn mit). Er soll nun auch die feinen Details (die Textur, die Schatten) lernen.
- Das Risiko: Wenn man den Mentor zu sehr verändert, vergisst er vielleicht wieder, was ein Hund ist, und konzentriert sich nur auf die Pixel.
- Die Lösung: Wir fügen eine „Wächter-Regel" hinzu (Semantic Preservation Loss). Diese Regel sagt: „Hey, du darfst die Details lernen, aber vergiss nicht, was der Mentor im ersten Schritt gesagt hat! Behalte die Bedeutung bei!"
- Ergebnis: Der Übersetzer versteht jetzt sowohl die tiefe Bedeutung als auch die feinen Details.
Schritt 3: Den Maler polieren (Decoder Refinement)
Der Übersetzer ist jetzt perfekt. Aber der Maler (Decoder), der das Bild aus der Sprache zurück in Pixel verwandelt, war während des ganzen Trainings ständig im Wandel. Jetzt lassen wir den Übersetzer in Ruhe und trainieren nur noch den Maler, damit er die Bilder noch schärfer und schöner macht.

Warum ist das so toll?

Schnelleres Lernen: Weil der Künstler (Diffusionsmodell) jetzt mit einem Übersetzer arbeitet, der die Welt versteht, muss er nicht erst raten, was er malen soll. Er kommt viel schneller zu guten Ergebnissen. Auf dem Bild „ImageNet" erreichte das Modell in nur 64 Runden (Epochen) ein Ergebnis, für das andere Modelle 300 Runden brauchten. Das ist wie ein Marathonläufer, der mit einem besseren Schuhmodell doppelt so schnell läuft.
Bessere Bilder: Die Bilder sehen nicht nur gut aus, sie halten sich besser an die Anweisungen. Wenn man sagt „ein roter Ball", ist er rot und rund, nicht zufällig blau und eckig.
Einfachheit: Statt ein riesiges, kompliziertes System von Grund auf neu zu erfinden, nutzen sie einfach das Beste, was es schon gibt (den Mentor), und bauen es clever ein.

Zusammenfassung in einem Satz

AlignTok ist wie ein genialer Dolmetscher, der einen weisen Kunstkritiker (den vortrainierten Mentor) nutzt, um einem chaotischen Künstler (dem Diffusionsmodell) beizubringen, Bilder nicht nur pixelgenau, sondern mit echter Bedeutung und Verständnis zu malen – und das alles viel schneller als bisherige Methoden.

Each language version is independently generated for its own context, not a direct translation.

Titel: AlignTok: Ausrichten von visuellen Basis-Encodern auf Tokenizer für Diffusionsmodelle

Veröffentlicht bei: ICLR 2026

1. Problemstellung

Die meisten aktuellen Bildgenerierungsmodelle basieren auf Latent Diffusion Models (LDMs), die in einem komprimierten latenten Raum operieren. Ein entscheidender Baustein hierfür ist der visuelle Tokenizer (meist ein Variational Autoencoder, VAE), der Bilder in diesen latenten Raum kodiert und wieder rekonstruiert.

Das zentrale Problem bei der herkömmlichen Ausbildung solcher Tokenizer liegt in der Asymmetrie der Lernziele:

Der Decoder wird direkt durch Rekonstruktionsverluste (Pixel-Level) trainiert und lernt daher gut, Details wiederherzustellen.
Der Encoder hingegen bildet den latenten Raum oft nur als Nebenprodukt der Rekonstruktion ab. Da der regulierende KL-Term (Kullback-Leibler-Divergenz) meist nur schwach gewichtet ist, neigt der latente Raum dazu, von niedrigstufigen Details (Texturen, Pixelrauschen) dominiert zu werden, anstatt eine gut strukturierte semantische Repräsentation zu entwickeln.
Dies führt zu einer schlechten „Diffusierbarkeit" (Diffusability): Der Diffusionsprozess hat Schwierigkeiten, in einem solchen unstrukturierten Raum zu konvergieren, was zu langsamerem Training und geringerer Generierungsqualität führt.

Bisherige Ansätze wie VA-VAE versuchen, dies durch semantische Regularisierung zu korrigieren, indem sie einen zusätzlichen Verlustterm hinzufügen, der den latenten Raum an einen vortrainierten Encoder annähert. Die Autoren argumentieren jedoch, dass dies ineffizient ist, da der Encoder dennoch versuchen muss, Semantik „von Grund auf" zu lernen, während er gleichzeitig mit dem Rekonstruktionsziel konkurriert.

2. Methodik: AlignTok

Die Autoren schlagen einen neuen Paradigmenwechsel vor: Statt Semantik neu zu lernen, wird ein vortrainierter visueller Basis-Encoder (z. B. DINOv2) direkt an die Aufgabe des Tokenizers angepasst. Da dieser Encoder bereits reichhaltige semantische Strukturen besitzt, wird die erste und schwierigste Aufgabe (Lernen eines diffusionsfreundlichen Raums) erheblich erleichtert.

Die Methode erfolgt in drei aufeinanderfolgenden Phasen (siehe Abbildung 2 im Paper):

Phase 1: Latent Alignment (Verborgener Raum-Ausrichtung)

Ziel: Schaffung eines semantisch fundierten latenten Raums.
Vorgehen: Der vortrainierte Encoder ( $E_p$ ) wird eingefroren (frozen). Ein leichter Adapter ( $A$ ) und ein Decoder ( $D$ ) werden trainiert.
Verlustfunktion: Nur Rekonstruktionsverlust ( $L_{rec}$ ).
Ergebnis: Der Adapter projiziert die hochdimensionalen Features des Encoders in einen kompakten latenten Raum (z. B. 32 Kanäle). Da der Encoder eingefroren ist, behält der Raum die starke Semantik des Basis-Modells bei, kann aber noch keine feinen Details für eine perfekte Rekonstruktion erfassen.

Phase 2: Perceptual Alignment (Wahrnehmungs-Ausrichtung)

Ziel: Der Encoder soll nun auch feine, niedrigstufige Details (Perzeption) lernen, ohne die Semantik zu verlieren.
Vorgehen: Alle Komponenten ( $E_p, A, D$ ) werden gemeinsam optimiert.
Herausforderung: Das gemeinsame Training führt dazu, dass der Encoder Details lernt, aber die semantische Struktur kollabiert (gemessen durch einen starken Abfall der „Linear Probing Accuracy").
Lösung: Einführung eines Semantic Preservation Loss ( $L_{sp}$ ). Dieser zwingt die aktuellen latenten Codes dazu, nahe an den Codes der vorherigen Phase (wo der Encoder noch eingefroren war) zu bleiben.
Verlustfunktion: $L_{pa} = L_{rec} + w_{sp} \cdot L_{sp}$ (mit $w_{sp}=1$ ).
Ergebnis: Der Encoder lernt Details für die Rekonstruktion, behält aber gleichzeitig die hochstufige semantische Struktur bei.

Phase 3: Decoder Refinement (Decoder-Verfeinerung)

Ziel: Maximale Rekonstruktionsqualität bei Beibehaltung des bereits optimierten latenten Raums.
Vorgehen: Der Encoder und Adapter werden wieder eingefroren. Nur der Decoder wird weiter trainiert.
Begründung: Da der latente Raum in den vorherigen Phasen ständig verändert wurde, könnte der Decoder unterangepasst (underfit) sein. Durch das Feinabstimmen nur des Decoders kann dieser die existierende semantische Repräsentation besser nutzen, ohne die Struktur zu stören.

3. Wichtige Beiträge

Neues Paradigma: Statt semantische Regularisierung als Zusatzverlust zu nutzen, wird ein vortrainierter Encoder direkt als Basis für den Tokenizer genutzt und schrittweise angepasst.
Drei-Stufen-Strategie: Die Trennung von „Semantik-Erhalt" (Phase 1), „Detail-Lernen mit Semantik-Erhaltung" (Phase 2) und „Rekonstruktions-Optimierung" (Phase 3) löst das Zielkonflikt-Problem zwischen Rekonstruktion und Diffusierbarkeit.
Effizienz: Die Methode ist skalierbar und benötigt weniger Trainingszeit als vergleichbare Ansätze, da der Encoder nicht von Null an lernen muss.
Architektur-Unabhängigkeit: Die Methode funktioniert mit verschiedenen visuellen Basis-Encodern (DINOv2, SigLIP, MAE), wobei DINOv2 als optimal identifiziert wurde.

4. Ergebnisse

Auf ImageNet (256×256)

Konvergenzgeschwindigkeit: Diffusionsmodelle, die mit AlignTok trainiert werden, konvergieren signifikant schneller. Das Modell erreicht einen gFID von 1,90 in nur 64 Epochen (80k Schritte). Zum Vergleich benötigt der State-of-the-Art VA-VAE etwa 300k Schritte für vergleichbare Ergebnisse (ca. 5x schneller).
Generierungsqualität:
- gFID: 1,90 (mit CFG) vs. 3,13 (VA-VAE).
- Sampling-Stabilität: Das Modell erreicht nahe-optimale Qualität bereits mit 50 Sampling-Schritten, während VA-VAE über 120 Schritte benötigt.
- Unconditional Generation: Auch ohne Klassen-Information (unconditional) übertrifft AlignTok alle Baselines.
Rekonstruktion: Die Rekonstruktionsqualität (rFID, PSNR) ist wettbewerbsfähig, wenn auch leicht hinter spezialisierten Rekonstruktions-Tokenizer zurückbleibend, was jedoch durch die überlegene Generierungsqualität kompensiert wird.

Auf LAION (Text-to-Image)

In großskaligen Text-zu-Bild-Experimenten (2B Parameter Modell) übertrifft AlignTok den FLUX VAE und VA-VAE konsistent.
Die generierten Bilder zeigen bessere Kohärenz, stärkere Textausrichtung (Prompt Alignment) und höhere visuelle Qualität.
Das Modell generalisiert auf höhere Auflösungen (512×512), obwohl der Tokenizer nur auf 256×256 trainiert wurde.

Ablationsstudien

Der Semantic Preservation Loss ist kritisch: Ohne ihn kollabiert die Semantik (hoher gFID, niedrige Linear Probing Accuracy). Zu starke Gewichtung schadet jedoch der Rekonstruktion.
DINOv2 als Basis-Encoder liefert das beste Gleichgewicht zwischen Semantik und Rekonstruktion im Vergleich zu MAE (zu stark auf Rekonstruktion fokussiert) oder SigLIP 2.

5. Bedeutung und Fazit

AlignTok etabliert einen neuen Standard für das Design von Tokenizern für Diffusionsmodelle. Die Kernthese ist, dass Semantik schwerer zu lernen ist als Rekonstruktion. Daher ist es effizienter, einen Encoder, der bereits Semantik beherrscht, an die Generierungsaufgabe anzupassen, als einen Encoder von Grund auf neu zu trainieren.

Vorteile: Einfache Implementierung, hohe Skalierbarkeit, deutlich schnellere Trainingskonvergenz für Diffusionsmodelle und überlegene Generierungsqualität.
Zukunftsausblick: Die Autoren sehen Potenzial für die Anwendung auf Video-Tokenisierung, diskrete Tokenizer für autoregressive Modelle und multimodale Einheitsmodelle.

Zusammenfassend bietet AlignTok einen robusten, semantisch fundierten Ansatz, der die Lücke zwischen visuellem Verständnis (Foundation Models) und visueller Generierung (Diffusion Models) schließt.