OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot wilt bouwen die twee dingen perfect kan: kijken en begrijpen (zoals een mens die een foto bekijkt en vertelt wat er te zien is) én dromen en tekenen (zoals een kunstenaar die een foto uit het niets creëert).

Tot nu toe hadden robotbouwers een probleem: ze moesten twee verschillende "hersenen" gebruiken. De ene hersenstam was goed in begrijpen, maar slecht in tekenen. De andere was goed in tekenen, maar kon niet goed begrijpen. Ze moesten dus twee robots aan elkaar koppelen, wat complex en rommelig was.

OpenVision 3 is de oplossing voor dit probleem. Het is een nieuwe, slimme "oog" voor AI die één enkel brein heeft dat beide taken perfect combineert.

Hier is hoe het werkt, vertaald naar alledaagse analogieën:

1. De Twee Delen van het Brein

Stel je OpenVision 3 voor als een kookmeester die twee verschillende gerechten maakt uit dezelfde ingrediënten:

De Ingrediënten (De VAE): Eerst wordt het beeld (de foto) door een machine (de VAE) omgezet in een soort "smakenprofiel" of een samenvatting. Het is alsof je een hele maaltijd reduceert tot de belangrijkste smaakstoffen. Dit zorgt ervoor dat de robot de fijne details (zoals de textuur van een bloem of de letters op een bord) niet verliest.
De Chef-kok (De ViT): Deze samenvatting gaat vervolgens naar de chef-kok (de ViT-encoder). Deze chef is heel slim en leert twee dingen tegelijk:
1. De Kunstenaar: Hij moet de maaltijd weer volledig kunnen reconstrueren uit de smaakstoffen, zodat het er precies uitziet als het origineel.
2. De Verteller: Hij moet de maaltijd kunnen beschrijven in woorden (bijvoorbeeld: "Dit is een foto van een hond in de sneeuw").

2. De Magische Synergie (Waarom het zo goed werkt)

Het meest fascinerende aan OpenVision 3 is dat deze twee taken elkaar helpen in plaats van hinderen.

Analogie: Stel je voor dat je probeert een gedicht te schrijven over een landschap. Als je het landschap heel goed moet tekenen (reconstrueren), moet je heel goed kijken naar de details. Door die aandacht voor details, leer je ook beter begrijpen wat er in het landschap gebeurt.
Het resultaat: In het verleden dachten onderzoekers dat je moest kiezen: of je bent goed in tekenen, of je bent goed in begrijpen. OpenVision 3 bewijst dat je door tekenen te oefenen, je begrijpen verbetert, en door te begrijpen, je tekenen verbetert. Het is als een spiegel: wat je aan de ene kant doet, versterkt de andere kant.

3. Wat betekent dit voor de toekomst?

Vroeger waren AI-modellen die konden tekenen (zoals DALL-E) en modellen die konden begrijpen (zoals ChatGPT met afbeeldingen) gescheiden. Ze moesten vaak samenwerken via ingewikkelde koppelingen.

Met OpenVision 3 hebben we nu één enkele, krachtige tool:

Voor het tekenen: Het maakt prachtige, scherpe plaatjes (beter dan de huidige beste modellen).
Voor het begrijpen: Het kan foto's lezen en beschrijven net zo goed als de slimste bestaande modellen (zoals CLIP).

Samenvattend

OpenVision 3 is als het vinden van de ultieme "Zwitsers zakmes" voor visuele AI. In plaats van een apart mes voor het snijden (tekenen) en een apart mes voor het schroeven (begrijpen), heb je nu één perfect ontworpen gereedschap dat beide taken met dezelfde precisie uitvoert. Het maakt AI-systemen eenvoudiger, slimmer en krachtiger, en opent de deur voor robots die echt kunnen zien, voelen en creëren, net als wij.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De ontwikkeling van Unificatie Multimodale Modellen (UMM's) stuit momenteel op een fundamentele uitdaging: het creëren van een visuele representatie die zowel geschikt is voor beeldbegrip (semantisch inzicht, zoals beschrijven en classificeren) als voor beeldgeneratie (het reconstrueren van pixel-accurate details).

Huidige benaderingen hanteren vaak twee verschillende strategieën, die beide tekortschieten:

Gescheiden Tokenizers: Modellen zoals BAGEL of UniFluid gebruiken twee aparte encoders voor hetzelfde beeld: één voor hoog-niveau semantiek (voor begrip) en één voor laag-niveau pixelreconstructie (voor generatie). Dit verhoogt de systeemcomplexiteit en belemmert de synergie tussen de taken.
Gedeelde Discrete Tokenizers: Andere werken proberen een enkele tokenizer te gebruiken, maar vertrouwen vaak op gekwantiseerde (discrete) representaties (bijv. via Vector Quantization). Dit introduceert discretisatiefouten die de kwaliteit van de generatie beperken.

Er is een behoefte aan een eenvoudige, continue visuele tokenizer die naadloos beide domeinen ondersteunt zonder de kwaliteitsverlies van discrete methoden of de complexiteit van dubbele encoders.

Methodologie: OpenVision 3

OpenVision 3 introduceert een nieuwe architectuur die een enkele, uniforme visuele representatie leert die zowel generatie als begrip dient. De kern van de methode is het combineren van een VAE (Variational Autoencoder) en een ViT (Vision Transformer).

1. Architectuur

Input: Een invoerbeeld $x$ wordt eerst verwerkt door een vooraf getrainde VAE-encoder (van FLUX.1-dev). Dit comprimeert het beeld naar een latente ruimte ( $z_{vae}$ ) met een downsampling factor van 8x.
Unificatie: Deze VAE-latente vector wordt vervolgens ingevoerd in een trainbare ViT-encoder. De ViT produceert de unified tokens ( $z_u$ ).
Twee Takken: De output van de ViT wordt naar twee volledig gescheiden takken gestuurd:
- Reconstructie-tak (Generatie): Voegt ruis toe aan de tokens (voor generalisatie), decodeert ze via een ViT-decoder en een lineaire laag terug naar VAE-latenties, en gebruikt vervolgens de VAE-decoder om het originele beeld te reconstrueren.
- Begrip-tak (Semantiek): Gebruikt de tokens voor contrastief leren (vergelijken met tekst-embeddings) en image captioning (autoregressieve tekstvoorspelling).

2. Trainingsdoelstellingen

Het model wordt getraind met een gecombineerde loss-functie die zowel reconstructie als semantiek optimaliseert:
$\mathcal{L}_{overall} = \omega_{rec}\mathcal{L}_{rec} + \omega_{und}\mathcal{L}_{und}$

Reconstructie Loss ( $\mathcal{L}_{rec}$ ): Bestaat uit $L_1$ -verlies op het pixelniveau en de VAE-latenties, plus perceptueel verlies (LPIPS). Er wordt ruis toegevoegd om de robuustheid te vergroten.
Begrip Loss ( $\mathcal{L}_{und}$ ): Een combinatie van contrastief verlies (CLIP-stijl) en captioning-verlies.
Training Strategy: Het model wordt getraind in twee fasen: eerst op lage resolutie (128x128) en vervolgens gefinetuned op hogere resolutie (224x224/256x256). De VAE-encoder en decoder zijn bevroren; alleen de ViT-encoder, de ViT-decoder en de tekstcomponenten worden getraind.

Belangrijkste Bijdragen

Unificatie van Continu en Semantisch: OpenVision 3 is een van de eerste modellen dat een continue tokenizer succesvol toepast voor zowel generatie als begrip, zonder de beperkingen van discrete quantisatie.
Synergie tussen Taken: Het paper demonstreert empirisch dat het optimaliseren van de ene taak (bijv. begrip) de prestaties van de andere (reconstructie) verbetert en vice versa. Dit weerlegt de aanname dat deze taken inherent conflicterend zijn.
De Rol van VAE Latents: Het paper benadrukt dat het gebruik van de VAE-latente ruimte cruciaal is. Het fungeert als een hoogwaardige tussenlaag die het ViT in staat stelt om een enkele representatie te leren die zowel pixel-accuraat als semantisch rijk is.
Open Source: De auteurs maken de code, data en checkpoints volledig openbaar, wat een grote stap is voor de gemeenschap om verder te bouwen op dit werk.

Resultaten

OpenVision 3 werd geëvalueerd op drie fronten: reconstructie, generatie en begrip. In alle gevallen werd de tokenizer bevroren tijdens de downstream evaluaties om de kwaliteit van de representatie zelf te testen.

1. Reconstructie (ImageNet & COCO)

OpenVision 3 overtreft bestaande unificatie-tokenizers (zoals UniTok, OmniTokenizer) aanzienlijk.
rFID (reconstruction Fréchet Inception Distance): 0.187 op ImageNet (vs. 0.362 voor UniTok).
PSNR: 30.92 dB, wat dicht in de buurt komt van gespecialiseerde generatie-tokenizers zoals FLUX-VAE (32.86 dB), maar dan met een veel betere semantische capaciteit.
Visuele resultaten tonen dat het model tekst en fijne details (zoals bloemtexturen) perfect kan reconstrueren, waar concurrenten vaak falen.

2. Generatie (ImageNet)

Getest onder het RAE-framework (Flow Matching).
gFID: 1.87, wat een aanzienlijke verbetering is ten opzichte van CLIP-based encoders (2.54) en zelfs beter is dan gespecialiseerde generatie-tokenizers zoals SD-VAE (2.27).
De gegenereerde beelden tonen hoge structuurcoherentie en rijke stijl-details.

3. Begrip (Multimodale Benchmarks)

Geïntegreerd in LLaVA-1.5 en LLaVA-NeXT frameworks.
OpenVision 3 presteert vergelijkbaar met of beter dan de standaard OpenAI CLIP-encoders (B/16 en L/14) op benchmarks zoals MME, SeedBench, GQA en POPE.
Bijvoorbeeld op SeedBench: 63.3 (OpenVision 3) vs. 61.2 (CLIP) in het LLaVA-NeXT kader.

4. Ablatie Studies

Synergie: Zelfs zonder expliciete reconstructieloss, daalt de reconstructie-error wanneer alleen semantische loss wordt gebruikt, en vice versa.
Noodzaak van VAE: Een variant zonder VAE (directe pixel-tokens) presteert significant slechter in zowel generatie (gFID 9.68 vs. 8.45) als begrip, wat aantoont dat de VAE-latente ruimte essentieel is voor succesvolle unificatie.

Betekenis en Conclusie

OpenVision 3 is een doorbraak in de richting van de "Platonische Representatie Hypothese", die stelt dat verschillende modaliteiten een gedeelde onderliggende realiteit delen.

Vereenvoudiging: Het elimineert de noodzaak voor complexe, dubbele encoder-systemen.
Efficiëntie: Het biedt een trainingsparadigma dat zowel semantisch inzicht als generatieve kwaliteit tegelijkertijd verbetert.
Toekomstperspectief: Het werk bewijst dat het mogelijk is om een enkele, continue visuele encoder te bouwen die de kloof tussen "zien" (begrip) en "creëren" (generatie) overbrugt. Dit opent de deur voor nog geavanceerdere unificatiemodellen in de toekomst.

Kortom, OpenVision 3 levert een bewijs dat een goed ontworpen, VAE-gebaseerde ViT-architectuur de huidige trade-off tussen beeldbegrip en beeldgeneratie kan doorbreken, met state-of-the-art resultaten op beide gebieden.