OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Ce papier présente OpenVision 3, une famille d'encodeurs visuels unifiés qui apprend une représentation unique capable de servir simultanément à la génération et à la compréhension d'images en combinant l'apprentissage par reconstruction via un VAE et des objectifs sémantiques, surpassant ainsi les encodeurs CLIP standards dans les deux domaines.

Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie

Publié 2026-03-16
📖 3 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un artiste deux compétences très différentes en même temps :

  1. Le photographe : Il doit pouvoir décrire une image avec des mots précis (comprendre le sens, les émotions, le contexte).
  2. Le peintre : Il doit pouvoir recréer l'image pixel par pixel, avec une fidélité absolue, sans rien oublier.

Jusqu'à présent, la plupart des intelligences artificielles utilisaient deux "cerveaux" séparés pour cela : un pour comprendre et un autre pour dessiner. C'était comme avoir deux employés différents qui ne se parlaient jamais, ce qui rendait le système lourd et parfois incohérent.

OpenVision 3 est une nouvelle invention qui résout ce problème en créant un seul cerveau universel capable de faire les deux métiers à la perfection.

Voici comment cela fonctionne, avec quelques images simples :

1. Le "Filtre Magique" (Le VAE)

Imaginez que vous prenez une photo haute définition et que vous la passez dans un filtre magique très puissant (appelé VAE). Ce filtre ne supprime pas l'information, mais il la compresse intelligemment. Il transforme la photo en une "essence" ou un "brouillon" très dense, qui contient tout ce qui est important (les formes, les couleurs, la structure) mais en beaucoup moins de place.

  • L'analogie : C'est comme résumer un livre entier en une seule phrase qui contient toute l'histoire, sans perdre le sens.

2. Le "Chef d'Orchestre" (Le ViT)

Ensuite, cette "essence" est donnée à un chef d'orchestre très intelligent (un ViT, ou Transformer visuel). Ce chef d'orchestre regarde le brouillon et apprend à le comprendre de deux façons simultanées :

  • Pour le Peintre (Génération) : Il apprend à reconstruire l'image originale à partir du brouillon. Il s'entraîne à ne rien oublier, même les détails fins comme les textures d'une fleur ou le texte sur un panneau.
  • Pour le Photographe (Compréhension) : Il apprend à décrire l'image avec des mots. Il s'entraîne à faire le lien entre ce qu'il voit et le langage humain (comme dire "c'est un chat" ou "c'est une scène triste").

3. La Magie de la Synergie

Ce qui est génial avec OpenVision 3, c'est que ces deux apprentissages s'aident mutuellement.

  • Quand le modèle essaie de mieux décrire l'image (compréhension), il apprend à mieux voir les détails, ce qui l'aide aussi à mieux reconstruire l'image.
  • Inversement, quand il essaie de reconstruire l'image parfaitement, il est forcé de comprendre la structure profonde de l'image, ce qui l'aide à mieux la décrire.

C'est comme si un étudiant qui apprend à jouer du piano (génération) devenait aussi un meilleur critique musical (compréhension) parce qu'il comprend la structure de la musique, et vice-versa.

Les Résultats Concrets

Les chercheurs ont testé ce système et les résultats sont impressionnants :

  • En dessin (Génération) : Il crée des images beaucoup plus nettes et réalistes que les systèmes précédents qui utilisaient des méthodes séparées. Il gagne le concours de "qui fait le plus beau tableau".
  • En description (Compréhension) : Il comprend les images aussi bien que les meilleurs experts actuels (comme CLIP), sans sacrifier sa capacité à dessiner.

En résumé

OpenVision 3 est comme un couteau suisse visuel. Au lieu d'avoir un tournevis pour comprendre et un marteau pour créer, il a un seul outil qui fait les deux parfaitement. Il apprend à voir le monde à la fois comme un artiste qui veut le recréer et comme un philosophe qui veut le comprendre, le tout en utilisant un seul et même langage interne.

C'est une avancée majeure car cela simplifie l'architecture des intelligences artificielles tout en les rendant plus puissantes et plus polyvalentes.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →