InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

Publié Wed, 11 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez un artiste polyvalent qui ne se contente pas de dessiner, mais qui comprend aussi ce qu'il dessine, résout des énigmes, et peut modifier ses propres œuvres en temps réel. C'est exactement ce que propose InternVL-U, un nouveau modèle d'intelligence artificielle présenté dans ce rapport.

Voici une explication simple de ce travail, imagée pour tout le monde :

1. Le Problème : L'Artiste qui a oublié ses crayons

Pendant longtemps, l'IA était divisée en deux camps :

  • Les "Intelligents" : Des modèles capables de comprendre une image, de lire un texte complexe ou de résoudre un problème de mathématiques, mais qui ne savaient pas créer d'images.
  • Les "Artistes" : Des modèles capables de générer de magnifiques tableaux, mais qui avaient du mal à comprendre les instructions complexes ou à respecter des règles précises (comme écrire le bon mot sur un panneau).

Essayer de fusionner ces deux mondes était comme essayer de faire jouer un violoniste et un footballeur sur le même terrain sans qu'ils ne se marchent dessus. Souvent, l'un perdait ses compétences pour que l'autre puisse jouer.

2. La Solution : InternVL-U, le "Couteau Suisse" de l'IA

Les chercheurs ont créé InternVL-U, un modèle "tout-en-un" (Unified Multimodal Model). Imaginez-le comme un chef d'orchestre génial qui dirige à la fois une section de musique (la compréhension) et une section de peinture (la génération).

Comment font-ils pour que ça marche ?
Au lieu de tout mélanger dans une grande soupe, ils ont utilisé une astuce intelligente :

  • Le Cerveau (Compréhension) : Ils utilisent un cerveau très puissant (basé sur InternVL 3.5) qui est excellent pour voir et comprendre le monde.
  • La Main (Génération) : Ils ont attaché à ce cerveau une "main" spécialisée (un module de génération) qui sait exactement comment peindre.
  • La Séparation : Le cerveau analyse l'image pour comprendre le sens, tandis que la main se concentre uniquement sur les pixels pour dessiner. C'est comme si le chef d'orchestre donnait les instructions, mais que les musiciens avaient chacun leur partition précise. Cela évite que l'IA ne se perde entre "comprendre" et "dessiner".

3. L'Entraînement : Apprendre à penser avant d'agir

Le vrai secret de ce modèle, ce n'est pas seulement son architecture, mais comment on l'a entraîné.

Souvent, quand on demande à une IA de dessiner quelque chose de complexe (comme "un chat qui résout un Sudoku" ou "une formule chimique précise"), elle hallucine. Elle dessine n'importe quoi.

Pour régler ça, les chercheurs ont introduit une méthode appelée Chain-of-Thought (Chaîne de Pensée).

  • L'analogie : Imaginez un étudiant qui doit résoudre un problème de physique. Au lieu de sauter directement à la réponse, il écrit d'abord ses étapes : "D'abord, je dois trouver la force, ensuite je calcule l'accélération...".
  • L'application : Avec InternVL-U, avant de dessiner l'image finale, le modèle est forcé de "penser à voix haute" (via du texte) pour planifier son dessin. Il se dit : "Pour faire ce meme drôle, je dois d'abord placer le chat ici, puis ajouter ce texte là, et m'assurer que l'expression du visage est triste".

Grâce à cette méthode, le modèle devient beaucoup plus précis, surtout pour les tâches difficiles comme :

  • Écrire du texte dans une image (sans faire de fautes d'orthographe).
  • La science (dessiner des molécules ou des diagrammes de physique corrects).
  • L'espace (comprendre comment un objet tourne en 3D).
  • L'humour (créer des mèmes qui ont du sens).

4. Pourquoi c'est impressionnant ?

Ce qui rend InternVL-U spécial, c'est son efficacité.

  • Il est "léger" (4 milliards de paramètres), ce qui est petit comparé aux géants de l'IA qui en ont des dizaines de milliards.
  • Pourtant, il bat des modèles beaucoup plus gros (comme BAGEL, qui est 3 fois plus lourd) sur de nombreuses tâches de création et d'édition.
  • C'est comme si un petit vélo électrique arrivait à faire aussi bien qu'un gros camion pour transporter des marchandises, tout en étant plus rapide et moins cher à faire rouler.

En résumé

InternVL-U est une avancée majeure car il rend l'IA "omnicompréhensive" accessible. Il ne se contente pas de générer de jolies images ; il comprend le contexte, raisonne logiquement, et peut même modifier des images existantes avec une précision chirurgicale.

C'est un pas de géant vers une Intelligence Artificielle Générale (AGI) où la machine ne fait pas que "calculer" ou "dessiner", mais où elle comprend ce qu'elle fait, tout comme un humain le ferait. Et le meilleur ? Tout cela est ouvert à la communauté, comme un cadeau pour tous les développeurs et chercheurs.