OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben zwei verschiedene Spezialisten für Bilder:

Der Maler: Er kann Bilder so perfekt nachahmen, dass man kaum einen Unterschied zum Original sieht. Er versteht jedes Detail, jeden Farbverlauf und jede Textur. Aber er ist vielleicht nicht der Beste darin, ein Bild zu beschreiben oder zu erklären, was darauf zu sehen ist.
Der Kunsthistoriker: Er kann ein Bild ansehen und sofort sagen: „Das ist ein Tiger im Dschungel, der gerade jagt." Er versteht die Bedeutung und die Geschichte. Aber wenn er versuchen würde, das Bild selbst zu malen, wäre das Ergebnis vielleicht nur eine grobe Skizze ohne feine Details.

Bisher mussten Computermodelle für künstliche Intelligenz (KI) oft zwei verschiedene Gehirne haben: eines für das Malen (Generierung) und eines für das Verstehen (Analyse). Das war kompliziert, teuer und ineffizient.

OpenVision 3 ist wie ein Super-Genie, das beide Rollen in einer Person vereint. Es ist ein neues KI-Modell, das lernt, Bilder nicht nur zu „sehen" und zu „verstehen", sondern sie auch perfekt zu „rekonstruieren" (nachzubauen).

Wie funktioniert das? Die „Übersetzer"-Analogie

Stellen Sie sich das System wie einen hochintelligenten Übersetzer vor, der in einem speziellen Raum arbeitet:

Der Vorraum (Der VAE-Encoder):
Zuerst nimmt das System ein riesiges, hochauflösendes Foto und komprimiert es in einen kleinen, effizienten „Gedankenraum" (das nennt man Latent Space). Stellen Sie sich das vor wie das Zusammenfassen eines ganzen Romans in eine prägnante Zusammenfassung. Dieser Schritt sorgt dafür, dass die wichtigen Details (wie die Textur von Fell oder die Form von Buchstaben) erhalten bleiben.
Das Gehirn (Der ViT-Encoder):
Diese Zusammenfassung wird dann an das eigentliche Gehirn des Modells weitergegeben. Hier passiert die Magie: Das Gehirn lernt gleichzeitig zwei Dinge:
- Aufgabe A (Der Maler): „Kannst du aus dieser Zusammenfassung das Originalbild wiederherstellen?" Es wird trainiert, das Bild pixelgenau zurückzubauen.
- Aufgabe B (Der Kunsthistoriker): „Kannst du beschreiben, was du siehst?" Es wird trainiert, den Inhalt des Bildes zu verstehen und mit Text zu verknüpfen.

Das Besondere: Die „Win-Win"-Situation

Das Tolle an OpenVision 3 ist, dass diese beiden Aufgaben sich gegenseitig helfen, statt sich im Weg zu stehen.

Die Analogie des Musikers: Stellen Sie sich vor, Sie üben Klavier. Wenn Sie nur die Noten lesen (Verstehen), werden Sie vielleicht nicht perfekt spielen. Aber wenn Sie gleichzeitig üben, die Melodie so genau wie möglich nachzuspielen (Rekonstruktion), lernen Sie die Nuancen der Musik viel besser.
Im Papier heißt es: Wenn das Modell lernt, Bilder perfekt zu rekonstruieren, lernt es dadurch auch, die Details besser zu verstehen. Und wenn es lernt, Bilder besser zu beschreiben, lernt es, die Struktur des Bildes klarer zu sehen. Beide Fähigkeiten wachsen zusammen wie zwei Muskeln, die sich beim Training gegenseitig stärken.

Warum ist das wichtig?

Bisherige Modelle mussten oft einen Kompromiss eingehen: Entweder waren sie gut im Malen, aber schlecht im Verstehen, oder umgekehrt. Oder sie nutzten zwei separate Systeme, was wie zwei verschiedene Computer ist, die miteinander reden müssen.

OpenVision 3 ist wie ein Schweizer Taschenmesser:

Es ist einfach: Es nutzt nur einen einzigen Encoder (ein Gehirn).
Es ist mächtig: Es kann Bilder so gut wiederherstellen wie spezialisierte Maler-Modelle (besser als viele vorherige Versuche, alles in einem Modell zu vereinen).
Es ist klug: Es versteht Bilder fast so gut wie die besten Experten-Modelle (wie CLIP), die nur auf das Verstehen ausgelegt sind.

Zusammenfassung für den Alltag

Stellen Sie sich OpenVision 3 als einen allwissenden Assistenten vor, den Sie in die Zukunft schicken.

Wenn Sie ihm ein Foto zeigen, kann er Ihnen nicht nur sagen, was darauf zu sehen ist (z. B. „Ein Hund spielt im Park"), sondern er kann auch das Foto so perfekt nachzeichnen, dass Sie kaum einen Unterschied zum Original erkennen.
Und das Beste: Er lernt beides aus derselben Erfahrung. Er wird nicht durch die Arbeit als Maler dumm für das Verstehen, und er wird nicht durch das Verstehen unfähig zum Malen.

Die Forscher hoffen, dass dieses Modell den Weg für die nächste Generation von KI ebnet, die Bilder und Sprache auf eine natürliche, einheitliche Weise versteht und erzeugt – ganz ohne komplizierte Doppel-Systeme.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung von Unified Multimodal Models (UMMs), die sowohl Bildverständnis (Understanding) als auch Bildgenerierung (Generation) nahtlos integrieren, steht vor einer zentralen Herausforderung: dem Repräsentationskonflikt.

Aktueller Stand: Bisherige Ansätze verwenden oft zwei separate Visual-Tokenizers für dieselbe Eingabe: einen für hochlevelige semantische Merkmale (für Verständnis) und einen für niedriglevelige, pixelrekonstruierbare Merkmale (für Generierung). Dies erhöht die Systemkomplexität und behindert die Synergie zwischen den Aufgaben.
Limitierungen bestehender Unified Tokenizer: Versuche, einen einzigen Tokenizer zu verwenden, basieren häufig auf quantisierten (diskreten) Repräsentationen (z. B. VQ-Tokenizer). Diese führen zu Diskretisierungsfehlern, die die Generierungsqualität beeinträchtigen.
Ziel: Es fehlt ein einfacher, effektiver und kontinuierlicher visueller Tokenizer, der sowohl für die semantische Analyse als auch für die hochwertige Bildgenerierung geeignet ist, ohne die Vorteile getrennter Pfade zu verlieren.

2. Methodik: OpenVision 3

OpenVision 3 löst dieses Problem durch eine einheitliche Architektur, die einen VAE-Encoder (Variational Autoencoder) mit einem trainierbaren ViT-Encoder (Vision Transformer) kombiniert.

Architektur-Aufbau:

Eingabe & Kompression: Ein Eingabebild wird zunächst durch einen eingefrorenen, vortrainierten VAE-Encoder (basierend auf FLUX.1-dev) in latente Repräsentationen ( $z_{vae}$ ) komprimiert. Dies reduziert die räumliche Auflösung um den Faktor 8.
Einheitliche Kodierung: Diese latenten VAE-Daten werden in einen ViT-Encoder eingespeist, der die endgültigen einheitlichen Token ( $z_u$ ) erzeugt. Die Patch-Größe des ViT wird auf $2\times2$ angepasst, um eine Gesamtkompressionsrate von 16-fach zu erreichen.
Zweigige Decodierung: Die einheitlichen Token $z_u$ $z_{u}$ werden in zwei separate Zweige geleitet:
- Rekonstruktionszweig (Generation):
  - Es wird Gaußsches Rauschen zu den Token hinzugefügt, um die Generalisierungsfähigkeit zu verbessern.
  - Ein ViT-Decoder (Patch-Größe $1\times1$ ) und eine lineare Schicht wandeln die verrauschten Token zurück in VAE-Latents ( $\hat{z}_{vae}$ ) um.
  - Der eingefrorene VAE-Decoder rekonstruiert das Bild $\hat{x}$ .
  - Verlustfunktion: Kombination aus $L_1$ -Verlust (Pixel und Latents) und perceptuellem Verlust (LPIPS).
- Verständniszweig (Understanding):
  - Dieser Zweig nutzt kontrastives Lernen (CLIP-ähnlich) und Bildunterschriften-Generierung (Captioning).
  - Ein Text-Encoder berechnet kontrastiven Verlust gegen die visuellen Token.
  - Ein Text-Decoder führt eine autoregressive Vorhersage von Bildunterschriften durch.
  - Verlustfunktion: Kombination aus Captioning-Loss und kontraktivem Loss.

Trainingsstrategie:

Das Modell wird in zwei Phasen trainiert: Pre-Training bei niedriger Auflösung (128x128) und Fine-Tuning bei hoher Auflösung (224x256).
Der VAE-Encoder und -Decoder bleiben während des gesamten Trainings eingefroren; nur der ViT-Encoder, der ViT-Decoder und die Sprachkomponenten werden trainiert.
Die Verlustgewichte werden so abgestimmt, dass die Generierungsqualität erhalten bleibt, während die semantischen Fähigkeiten gestärkt werden.

3. Schlüsselbeiträge

Einheitlicher kontinuierlicher Tokenizer: OpenVision 3 ist ein durchgängig kontinuierlicher Tokenizer, der Diskretisierungsfehler vermeidet und gleichzeitig hochqualitative Rekonstruktionen und semantische Verständnisfähigkeiten bietet.
Synergie durch VAE-Latents: Die Arbeit zeigt, dass das Trainieren im latenten Raum eines hochwertigen VAEs (anstatt auf rohen Pixeln) entscheidend ist, um sowohl Generierung als auch Verständnis in einem einzigen Encoder zu vereinen.
Reziproke Synergie: Ein zentrales Ergebnis ist die gegenseitige Förderung der Aufgaben. Das Training nur mit semantischen Verlusten verbessert die Rekonstruktionsleistung, und umgekehrt hilft die Rekonstruktionsaufgabe, die semantische Ausrichtung zu verbessern.
Open Source: Das Paper stellt Training-Code, Daten und Checkpoints zur Verfügung, um die Forschung an einheitlichen Vision-Tokenizern voranzutreiben.

4. Ergebnisse

Die Evaluation wurde durchgeführt, wobei der Encoder in allen Downstream-Aufgaben eingefroren war, um die Qualität der gelernten Repräsentation isoliert zu bewerten.

Rekonstruktion (Reconstruction):
- OpenVision 3 übertrifft alle bestehenden Unified Tokenizer (wie UniTok, RAE) deutlich.
- Auf ImageNet erreicht es ein rFID von 0,187 (verglichen mit 0,362 bei UniTok) und ein PSNR von 30,92 dB.
- Die Rekonstruktionsqualität ist mit spezialisierten Generierungs-Tokenizern (wie SD-VAE) vergleichbar oder besser, insbesondere bei der Erhaltung von Text und feinen Details.
Generierung (Generation):
- Im RAE-Framework (Flow Matching) auf ImageNet erreicht OpenVision 3 ein gFID von 1,87.
- Dies ist ein signifikanter Fortschritt gegenüber dem Standard-CLIP-basierten Encoder (gFID 2,54) und anderen Unified Tokenizern.
Multimodales Verständnis (Understanding):
- Integriert in LLaVA-1.5 und LLaVA-NeXT Frameworks ist OpenVision 3 mit dem etablierten OpenAI CLIP (L/14) gleichauf oder übertrifft es in vielen Benchmarks.
- Beispiele: Auf SeedBench (65,8 vs. 65,4) und GQA (61,0 vs. 60,4) unter LLaVA-1.5 zeigt es leicht bessere Ergebnisse als CLIP.

5. Bedeutung und Fazit

OpenVision 3 beweist, dass die traditionelle Trennung zwischen visuellem Verständnis und Generierung durch einen einzigen, gut strukturierten Encoder überwunden werden kann.

Paradigmenwechsel: Statt komplexer Fusionen separater Tokenizer ermöglicht die Architektur einen „Drop-in"-Ersatz für rein rekonstruktionsorientierte Tokenizer, der gleichzeitig semantisch reichhaltig ist.
Rolle des VAE: Die Arbeit unterstreicht empirisch, dass der VAE-Latenzraum nicht nur für die Generierung, sondern auch als Fundament für ein effektives multimodales Verständnis unverzichtbar ist.
Zukunftsausblick: Durch die Bereitstellung der Ressourcen und die Demonstration der gegenseitigen Vorteile von Verständnis und Generierung legt OpenVision 3 den Grundstein für die nächste Generation von Unified Multimodal Models, die effizienter und leistungsfähiger sind als bisherige proprietäre oder getrennte Ansätze.

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Wie funktioniert das? Die „Übersetzer"-Analogie

Das Besondere: Die „Win-Win"-Situation

Warum ist das wichtig?

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: OpenVision 3

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Improvement of DVB-S2/S2X Performance Using External Synchronization

ospEDA: Orthogonal Subspace Projection for Electrodermal Activity Decomposition

IOGRUCloud: A Scalable AI-Driven IoT Platform for Climate Control in Controlled Environment Agriculture

On the Isospectral Nature of Minimum-Shear Covariance Control

Learning interpretable and stable dynamical models via mixed-integer Lyapunov-constrained optimization