OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un artiste deux compétences très différentes en même temps :

Le photographe : Il doit pouvoir décrire une image avec des mots précis (comprendre le sens, les émotions, le contexte).
Le peintre : Il doit pouvoir recréer l'image pixel par pixel, avec une fidélité absolue, sans rien oublier.

Jusqu'à présent, la plupart des intelligences artificielles utilisaient deux "cerveaux" séparés pour cela : un pour comprendre et un autre pour dessiner. C'était comme avoir deux employés différents qui ne se parlaient jamais, ce qui rendait le système lourd et parfois incohérent.

OpenVision 3 est une nouvelle invention qui résout ce problème en créant un seul cerveau universel capable de faire les deux métiers à la perfection.

Voici comment cela fonctionne, avec quelques images simples :

1. Le "Filtre Magique" (Le VAE)

Imaginez que vous prenez une photo haute définition et que vous la passez dans un filtre magique très puissant (appelé VAE). Ce filtre ne supprime pas l'information, mais il la compresse intelligemment. Il transforme la photo en une "essence" ou un "brouillon" très dense, qui contient tout ce qui est important (les formes, les couleurs, la structure) mais en beaucoup moins de place.

L'analogie : C'est comme résumer un livre entier en une seule phrase qui contient toute l'histoire, sans perdre le sens.

2. Le "Chef d'Orchestre" (Le ViT)

Ensuite, cette "essence" est donnée à un chef d'orchestre très intelligent (un ViT, ou Transformer visuel). Ce chef d'orchestre regarde le brouillon et apprend à le comprendre de deux façons simultanées :

Pour le Peintre (Génération) : Il apprend à reconstruire l'image originale à partir du brouillon. Il s'entraîne à ne rien oublier, même les détails fins comme les textures d'une fleur ou le texte sur un panneau.
Pour le Photographe (Compréhension) : Il apprend à décrire l'image avec des mots. Il s'entraîne à faire le lien entre ce qu'il voit et le langage humain (comme dire "c'est un chat" ou "c'est une scène triste").

3. La Magie de la Synergie

Ce qui est génial avec OpenVision 3, c'est que ces deux apprentissages s'aident mutuellement.

Quand le modèle essaie de mieux décrire l'image (compréhension), il apprend à mieux voir les détails, ce qui l'aide aussi à mieux reconstruire l'image.
Inversement, quand il essaie de reconstruire l'image parfaitement, il est forcé de comprendre la structure profonde de l'image, ce qui l'aide à mieux la décrire.

C'est comme si un étudiant qui apprend à jouer du piano (génération) devenait aussi un meilleur critique musical (compréhension) parce qu'il comprend la structure de la musique, et vice-versa.

Les Résultats Concrets

Les chercheurs ont testé ce système et les résultats sont impressionnants :

En dessin (Génération) : Il crée des images beaucoup plus nettes et réalistes que les systèmes précédents qui utilisaient des méthodes séparées. Il gagne le concours de "qui fait le plus beau tableau".
En description (Compréhension) : Il comprend les images aussi bien que les meilleurs experts actuels (comme CLIP), sans sacrifier sa capacité à dessiner.

En résumé

OpenVision 3 est comme un couteau suisse visuel. Au lieu d'avoir un tournevis pour comprendre et un marteau pour créer, il a un seul outil qui fait les deux parfaitement. Il apprend à voir le monde à la fois comme un artiste qui veut le recréer et comme un philosophe qui veut le comprendre, le tout en utilisant un seul et même langage interne.

C'est une avancée majeure car cela simplifie l'architecture des intelligences artificielles tout en les rendant plus puissantes et plus polyvalentes.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : OpenVision 3

1. Problématique

Les modèles multimodaux unifiés (UMM) visent à intégrer la compréhension visuelle et la génération d'images au sein d'une seule architecture. Cependant, un défi majeur persiste : la disparité représentationnelle entre ces deux tâches.

La compréhension nécessite des tokens de haut niveau sémantiques (abstraits).
La génération nécessite des tokens de bas niveau capables de reconstruire fidèlement les pixels (détails fins).

Les approches actuelles adoptent généralement l'une des deux stratégies suivantes, chacune présentant des limites :

Double encodeur : Utilisation de deux tokenizers distincts (un pour la sémantique, un pour la reconstruction). Cela augmente la complexité du système et empêche une synergie profonde entre les tâches.
Tokenizer unique discret : Utilisation de la quantification vectorielle (VQ) pour unifier les représentations. Cela introduit des erreurs de discrétisation qui dégradent la qualité de la génération.

Il manque donc une solution simple et efficace utilisant un tokenizer visuel continu capable de supporter simultanément la compréhension et la génération sans compromis majeur.

2. Méthodologie

OpenVision 3 propose une architecture unifiée simple mais puissante, construite en empilant un encodeur ViT (Vision Transformer) sur un encodeur VAE (Variational Autoencoder) pré-entraîné.

Architecture :

Entrée : Une image est d'abord compressée par un VAE pré-entraîné (FLUX.1) pour obtenir des latents ( $z_{vae}$ ).
Encodage Unifié : Ces latents VAE sont ensuite traités par un encodeur ViT (entraîné de zéro) pour produire une représentation unifiée ( $z_u$ ).
Branches de Décodeur : La représentation $z_u$ $z_{u}$ est ensuite divisée en deux branches distinctes mais partageant le même encodeur :
1. Branche de Reconstruction (Génération) : Utilise un décodeur ViT et le décodeur VAE pour reconstruire l'image originale. Un bruit est ajouté aux latents pour améliorer la généralisation. L'objectif est de minimiser la perte de reconstruction (pixel, latents VAE et LPIPS).
2. Branche de Compréhension (Sémantique) : Utilise un encodeur de texte et un décodeur de texte. L'objectif est d'optimiser la représentation via l'apprentissage contrastif (alignement image-texte) et la perte de légendage (captioning).

Objectif d'Entraînement :
Le modèle est optimisé conjointement pour minimiser une fonction de perte globale :
$\mathcal{L}_{overall} = \omega_{rec}\mathcal{L}_{rec} + \omega_{und}\mathcal{L}_{und}$
Où $\mathcal{L}_{und}$ combine la perte de légendage et la perte contrastive. Les auteurs utilisent un poids plus élevé pour la perte de compréhension ( $\omega_{und} = 2 \times \omega_{rec}$ ) pour préserver la qualité générative tout en assurant une forte capacité sémantique.

Stratégie d'Entraînement :

Progressif : Entraînement d'abord à basse résolution (128x128), puis affinage (finetuning) à haute résolution (224x256).
Gel du VAE : L'encodeur et le décodeur VAE sont figés ; seuls le ViT, le décodeur ViT et les composants textuels sont entraînés.
Données : Utilisation du jeu de données DataComp recaptionné par LLaVA-Llama-3.

3. Contributions Clés

Architecture Unifiée Continue : OpenVision 3 est le premier à démontrer qu'un encodeur ViT opérant dans l'espace latent d'un VAE peut servir de tokenizer unique, éliminant le besoin de tokenisation discrète ou de double encodeur.
Synergie Réciproque : L'étude montre que l'optimisation conjointe crée une boucle de rétroaction positive : l'apprentissage sémantique améliore la reconstruction (et vice-versa), contrairement à ce que l'on observe souvent dans les modèles où les tâches sont en conflit.
Rôle Indispensable du Latent VAE : Les expériences d'ablation prouvent que l'utilisation des latents VAE (au lieu des pixels bruts) est cruciale. Cela permet au ViT de se concentrer sur une représentation unifiée de haute qualité, améliorant à la fois la génération et la compréhension.
Performance État-de-l'Art : Le modèle surpasse les tokenizers unifiés existants en génération et en reconstruction, tout en restant compétitif avec les encodeurs CLIP (spécialisés en compréhension) pour les tâches de compréhension multimodale.

4. Résultats Expérimentaux

Les évaluations ont été menées avec l'encodeur figé pour garantir que les gains proviennent de la qualité de la représentation visuelle.

Reconstruction :
- Sur ImageNet, OpenVision 3 atteint un rFID de 0.187, surpassant largement UniTok (0.362) et se rapprochant des VAEs spécialisés (FLUX-VAE : 0.176).
- Il préserve les détails fins et le texte mieux que les modèles précédents (visualisation qualitative).
Génération d'Images :
- Sous le framework RAE (Flow Matching), OpenVision 3 obtient un gFID de 1.87 sur ImageNet, surpassant significativement les encodeurs basés sur CLIP (2.54) et les autres tokenizers unifiés.
Compréhension Multimodale :
- Intégré dans LLaVA-1.5 et LLaVA-NeXT, OpenVision 3 égale ou dépasse CLIP sur plusieurs benchmarks (MME, SeedBench, GQA, POPE).
- Exemple : Sur SeedBench (LLaVA-1.5), il obtient 63.1 contre 62.2 pour CLIP-B/16.
Analyse d'Ablation :
- Supprimer la perte de reconstruction n'empêche pas la reconstruction de s'améliorer (grâce à la perte sémantique).
- Supprimer la perte sémantique n'empêche pas l'amélioration de la compréhension (grâce à la reconstruction).
- Le modèle sans VAE (directement sur les pixels) montre une dégradation drastique de la génération (gFID passe de 8.45 à 9.68) et de la reconstruction.

5. Signification et Impact

OpenVision 3 représente une avancée majeure vers la réalisation de la Hypothèse de la Représentation Platonicienne, où une seule représentation unifiée suffit pour toutes les modalités.

Simplicité : L'architecture est conceptuellement simple (VAE + ViT), évitant la complexité des systèmes à double encodeur.
Efficacité : Elle démontre que la génération et la compréhension ne sont pas des objectifs antagonistes mais peuvent se renforcer mutuellement dans un espace latent bien conçu.
Futur de la Recherche : En fournissant un code et des checkpoints open-source, OpenVision 3 ouvre la voie à de nouveaux modèles multimodaux natifs plus performants et plus économes en ressources, capables de dialoguer et de générer du contenu de haute qualité avec une seule base de tokens visuels.

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

1. Le "Filtre Magique" (Le VAE)

2. Le "Chef d'Orchestre" (Le ViT)

3. La Magie de la Synergie

Les Résultats Concrets

En résumé

Résumé Technique : OpenVision 3

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Improvement of DVB-S2/S2X Performance Using External Synchronization

ospEDA: Orthogonal Subspace Projection for Electrodermal Activity Decomposition

IOGRUCloud: A Scalable AI-Driven IoT Platform for Climate Control in Controlled Environment Agriculture

On the Isospectral Nature of Minimum-Shear Covariance Control

Learning interpretable and stable dynamical models via mixed-integer Lyapunov-constrained optimization