Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Ce papier propose NV-CoT, un cadre qui permet aux modèles de langage multimodaux d'effectuer un raisonnement visuel en générant directement des coordonnées de boîtes englobantes continues, améliorant ainsi la précision de localisation et la convergence de l'entraînement par rapport aux méthodes existantes basées sur des tokens textuels ou des patches fixes.

Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang

Publié 2026-03-02
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'expliquer à un robot comment trouver un objet précis dans une photo, comme un "troupeau de moutons" ou un "panneau de signalisation".

Le Problème : Le Robot qui parle trop mal les mathématiques

Jusqu'à présent, les grands modèles d'intelligence artificielle (les "cerveaux" des robots) avaient deux façons de pointer du doigt dans une image, et toutes les deux posaient problème :

  1. La méthode "Texte" (Les coordonnées en mots) :
    Le robot doit écrire des mots pour dire où regarder, par exemple : "x1 est 4, y1 est 8...".

    • L'analogie : C'est comme si vous deviez donner des directions à un ami en utilisant un code secret où chaque chiffre est un mot différent. Si vous dites "3" au lieu de "3,1", le robot pense que c'est une erreur totale, alors que c'est juste une petite différence. C'est comme si vous disiez : "Tourne à gauche" (3) ou "Tourne à droite" (4), sans pouvoir dire "tourne légèrement à gauche". C'est rigide et ça crée des confusions.
  2. La méthode "Patches" (Les carrés fixes) :
    Le robot regarde l'image comme une grille de pixels fixes, un peu comme un jeu de Pac-Man où il ne peut bouger que d'un carré à l'autre.

    • L'analogie : C'est comme essayer de viser une mouche avec une fourchette à dents très espacées. Vous ne pouvez pas viser exactement la mouche, vous devez viser le carré le plus proche. C'est imprécis et ça demande de changer toute la structure du robot (sa "fourchette").

La Solution : NV-CoT (Le doigt magique et fluide)

Les auteurs proposent une nouvelle méthode appelée NV-CoT. Au lieu de forcer le robot à écrire des mots ou à sauter de case en case, ils lui apprennent à utiliser un doigt numérique continu.

  • L'analogie du stylo : Imaginez que le robot ne pointe pas avec des mots, mais avec un stylo qui peut dessiner un cadre (un rectangle) n'importe où, avec une précision infinie. Il peut dire : "Je mets le coin en haut à gauche exactement à la position 42,2...".
  • Comment ça marche ?
    • Le robot apprend à prédire directement des nombres (des coordonnées continues) au lieu de mots.
    • C'est comme passer d'un jeu d'échecs (où les pièces ne bougent que sur des cases) à un jeu de billard (où la bille peut s'arrêter n'importe où sur la table).
    • Le robot utilise une "probabilité" (comme une cible de tir) : il ne devine pas un seul chiffre, mais il imagine une zone de confiance autour du chiffre exact. S'il se trompe un tout petit peu, ce n'est pas une catastrophe, c'est juste une petite erreur de tir.

Pourquoi c'est génial ? (Les avantages)

  1. Précision chirurgicale : Le robot trouve exactement l'objet, pas juste "à peu près". C'est comme passer d'une loupe grossière à un microscope.
  2. Apprentissage plus rapide : Comme le robot comprend mieux la géométrie (la distance entre les points), il apprend beaucoup plus vite à bien faire son travail.
  3. Pas de gros travaux de rénovation : Contrairement aux autres méthodes qui demandent de reconstruire tout le cerveau du robot, NV-CoT est comme un petit accessoire qu'on ajoute facilement (un "plug-and-play").

En résumé

Imaginez que vous apprenez à un enfant à dessiner un cadre autour d'un chat sur une photo.

  • Avant : Vous lui disiez : "Mets le trait sur la ligne 3, puis sur la ligne 4". S'il met le trait entre les lignes, vous dites "Non, c'est faux !".
  • Avec NV-CoT : Vous lui dites : "Dessine le trait exactement là où tu vois le chat". S'il est un tout petit peu à côté, vous lui dites : "C'est très bien, c'est presque parfait".

Grâce à cette méthode, le robot devient beaucoup plus intelligent pour comprendre les images, trouver des détails précis et répondre aux questions complexes, le tout en apprenant plus vite et avec moins d'effort. C'est une avancée majeure pour rendre les IA plus "humaines" dans leur façon de voir le monde.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →