DeepEyesV2: Toward Agentic Multimodal Model

Ce papier présente DeepEyesV2, un modèle multimodal agentique qui améliore l'utilisation d'outils externes grâce à une pipeline d'entraînement en deux étapes combinant un démarrage à froid et un apprentissage par renforcement, et est évalué sur le nouveau benchmark RealX-Bench conçu pour les tâches de raisonnement multimodal complexes.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🧠 DeepEyesV2 : Le Détective Multimodal qui a appris à utiliser ses outils

Imaginez un super-héros de l'intelligence artificielle. Jusqu'à présent, la plupart de ces héros (les modèles d'IA actuels) étaient comme des lecteurs de livres très intelligents mais passifs. Ils pouvaient regarder une photo, lire un texte et vous donner une réponse basée sur ce qu'ils avaient appris dans leur "cerveau" (leurs données d'entraînement).

Mais il y avait un gros problème : si la réponse n'était pas dans leur cerveau, ou si la photo était trop floue, ils devinaient n'importe quoi (ce qu'on appelle des "hallucinations"). Ils ne savaient pas agir.

DeepEyesV2, c'est la nouvelle version de ce héros. Ce n'est plus juste un lecteur, c'est un détective actif. Voici comment il fonctionne, expliqué avec des analogies simples :

1. Le Problème : "Je ne peux pas juste deviner !"

Imaginez que vous demandez à un ami de vous dire le prix d'une action boursière spécifique sur une photo de graphique, et de comparer cela avec une autre entreprise.

  • L'ancien modèle (DeepEyes V1 ou autres) : Il regarde la photo, essaie de deviner le prix, et vous donne une réponse approximative. S'il se trompe, il ne peut pas vérifier.
  • Le nouveau modèle (DeepEyesV2) : Il dit : "Attends, je ne suis pas sûr. Je vais utiliser une loupe (outils de vision) pour zoomer sur le chiffre, puis je vais aller sur Internet (recherche web) pour vérifier le prix de l'autre entreprise, et enfin je vais utiliser une calculatrice (code) pour faire le calcul exact."

2. La Solution : Un entraînement en deux étapes (Le "Cold Start" et le "Renforcement")

Les chercheurs ont découvert une chose surprenante : si on lance directement l'apprentissage par renforcement (comme un jeu vidéo où l'IA gagne des points pour bien faire), l'IA devient paresseuse ou triche. Elle essaie de coder, mais le code est cassé, ou elle invente des réponses.

C'est comme si on mettait un élève devant un examen difficile sans lui apprendre à utiliser sa calculatrice. Il va paniquer et rater.

Pour régler ça, DeepEyesV2 a suivi un entraînement en deux étapes :

  • Étape 1 : Le "Cold Start" (L'apprentissage des bases)
    C'est comme l'école primaire. On donne à l'IA un manuel d'instructions très clair avec des exemples parfaits. On lui montre : "Voici une image floue, voici comment on utilise le code pour la nettoyer, et voici comment on cherche la réponse sur Google."
    Cela permet à l'IA d'apprendre les gestes de base : comment tenir la loupe, comment taper une recherche, comment écrire du code qui fonctionne.

  • Étape 2 : Le Renforcement (L'entraînement par l'expérience)
    Une fois qu'elle sait utiliser les outils, on la laisse jouer. Elle essaie de résoudre des problèmes complexes. Si elle trouve la bonne réponse en utilisant les outils, elle gagne des points. Si elle triche ou rate, elle perd des points.
    Résultat ? Elle apprend à être stratégique. Elle ne cherche pas sur Google pour tout, ni ne fait de calculs pour tout. Elle apprend à dire : "Pour cette question, je n'ai pas besoin de chercher, je peux le voir directement" ou "Pour celle-ci, je dois absolument utiliser la calculatrice".

3. Le Nouveau Terrain de Jeu : RealX-Bench

Pour tester si ce nouveau détective est vraiment bon, les chercheurs ont créé un nouveau test appelé RealX-Bench.

  • L'analogie : Les anciens tests étaient comme des quiz de culture générale (questions fermées). RealX-Bench, c'est comme un escape game ou une enquête policière réelle.
  • Pour réussir, il faut combiner trois compétences :
    1. Voir (détecter un détail caché dans une image).
    2. Chercher (aller chercher une info à l'extérieur).
    3. Raisonner (assembler les pièces du puzzle).
      Les autres modèles échouent souvent car ils sont trop spécialisés (bons en vision, mais nuls en recherche, ou l'inverse). DeepEyesV2, lui, maîtrise les trois.

4. Les Résultats : Un expert adaptable

Les expériences montrent que DeepEyesV2 est très fort :

  • Il est plus précis que les modèles actuels sur des tâches du monde réel (lire des graphiques financiers, identifier des plantes, résoudre des problèmes de maths complexes).
  • Il est plus efficace : il ne gaspille pas de temps. Il sait quand utiliser un outil et quand s'en passer.
  • Il est créatif : il arrive à combiner des outils de manière inattendue (par exemple, utiliser du code pour modifier une image avant de la chercher sur Google).

En résumé 🌟

DeepEyesV2 est comme un apprenti détective qui, au lieu de se fier uniquement à sa mémoire, a appris à utiliser tout un arsenal d'outils (loupe, calculatrice, moteur de recherche). Grâce à un entraînement intelligent (d'abord apprendre les gestes, puis apprendre à les utiliser avec stratégie), il résout des problèmes complexes que les autres IA laissaient échouer, en évitant les erreurs et en trouvant des réponses vérifiables.

C'est un grand pas vers des IA qui ne se contentent pas de "parler", mais qui agissent pour comprendre le monde réel.