Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'expliquer à un robot comment trouver un objet précis dans une photo, comme un "troupeau de moutons" ou un "panneau de signalisation".

Le Problème : Le Robot qui parle trop mal les mathématiques

Jusqu'à présent, les grands modèles d'intelligence artificielle (les "cerveaux" des robots) avaient deux façons de pointer du doigt dans une image, et toutes les deux posaient problème :

La méthode "Texte" (Les coordonnées en mots) :
Le robot doit écrire des mots pour dire où regarder, par exemple : "x1 est 4, y1 est 8...".
- L'analogie : C'est comme si vous deviez donner des directions à un ami en utilisant un code secret où chaque chiffre est un mot différent. Si vous dites "3" au lieu de "3,1", le robot pense que c'est une erreur totale, alors que c'est juste une petite différence. C'est comme si vous disiez : "Tourne à gauche" (3) ou "Tourne à droite" (4), sans pouvoir dire "tourne légèrement à gauche". C'est rigide et ça crée des confusions.
La méthode "Patches" (Les carrés fixes) :
Le robot regarde l'image comme une grille de pixels fixes, un peu comme un jeu de Pac-Man où il ne peut bouger que d'un carré à l'autre.
- L'analogie : C'est comme essayer de viser une mouche avec une fourchette à dents très espacées. Vous ne pouvez pas viser exactement la mouche, vous devez viser le carré le plus proche. C'est imprécis et ça demande de changer toute la structure du robot (sa "fourchette").

La Solution : NV-CoT (Le doigt magique et fluide)

Les auteurs proposent une nouvelle méthode appelée NV-CoT. Au lieu de forcer le robot à écrire des mots ou à sauter de case en case, ils lui apprennent à utiliser un doigt numérique continu.

L'analogie du stylo : Imaginez que le robot ne pointe pas avec des mots, mais avec un stylo qui peut dessiner un cadre (un rectangle) n'importe où, avec une précision infinie. Il peut dire : "Je mets le coin en haut à gauche exactement à la position 42,2...".
Comment ça marche ?
- Le robot apprend à prédire directement des nombres (des coordonnées continues) au lieu de mots.
- C'est comme passer d'un jeu d'échecs (où les pièces ne bougent que sur des cases) à un jeu de billard (où la bille peut s'arrêter n'importe où sur la table).
- Le robot utilise une "probabilité" (comme une cible de tir) : il ne devine pas un seul chiffre, mais il imagine une zone de confiance autour du chiffre exact. S'il se trompe un tout petit peu, ce n'est pas une catastrophe, c'est juste une petite erreur de tir.

Pourquoi c'est génial ? (Les avantages)

Précision chirurgicale : Le robot trouve exactement l'objet, pas juste "à peu près". C'est comme passer d'une loupe grossière à un microscope.
Apprentissage plus rapide : Comme le robot comprend mieux la géométrie (la distance entre les points), il apprend beaucoup plus vite à bien faire son travail.
Pas de gros travaux de rénovation : Contrairement aux autres méthodes qui demandent de reconstruire tout le cerveau du robot, NV-CoT est comme un petit accessoire qu'on ajoute facilement (un "plug-and-play").

En résumé

Imaginez que vous apprenez à un enfant à dessiner un cadre autour d'un chat sur une photo.

Avant : Vous lui disiez : "Mets le trait sur la ligne 3, puis sur la ligne 4". S'il met le trait entre les lignes, vous dites "Non, c'est faux !".
Avec NV-CoT : Vous lui dites : "Dessine le trait exactement là où tu vois le chat". S'il est un tout petit peu à côté, vous lui dites : "C'est très bien, c'est presque parfait".

Grâce à cette méthode, le robot devient beaucoup plus intelligent pour comprendre les images, trouver des détails précis et répondre aux questions complexes, le tout en apprenant plus vite et avec moins d'effort. C'est une avancée majeure pour rendre les IA plus "humaines" dans leur façon de voir le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage multimodaux (MLLM) récents utilisent de plus en plus le « Chain-of-Thought » (CoT) visuel pour effectuer un raisonnement ancré sur des régions spécifiques d'une image. Cependant, les approches existantes souffrent de deux limitations fondamentales :

Approches basées sur le texte (Text-based CoT) : Elles sérialisent les coordonnées des régions sous forme de tokens textuels discrets (ex: [x1, y1, x2, y2] en tant que chaînes de caractères).
- Problème : Cela crée un décalage de modalité (les coordonnées visuelles sont continues, mais prédites comme des tokens discrets) et une fragmentation sémantique. La perte d'entropie croisée standard pénalise de manière égale des erreurs géométriques proches (ex: prédire 3.2 au lieu de 3.1 est aussi pénalisé que 4.1), et la tokenisation des nombres rend le raisonnement numérique fragile.
Approches basées sur des patches (Patch-based CoT) : Elles opèrent directement sur des patches visuels fins.
- Problème : Elles sont limitées par la granularité fixe du backbone visuel, ce qui empêche une sélection de région précise et flexible. De plus, elles nécessitent souvent des modifications architecturales non triviales.

2. Méthodologie : NV-CoT

L'article propose NV-CoT (Numerical Visual Chain-of-Thought), un cadre qui étend l'espace d'action des MLLM des tokens de vocabulaire discrets vers un espace euclidien continu. Le modèle génère directement des coordonnées de boîtes englobantes numériques comme actions.

A. Architecture et Espace d'Action

Extension de la tête de sortie : Au lieu de prédire des tokens, la tête LLM est augmentée de quatre têtes linéaires légères pour prédire les coordonnées $(x_1, y_1, x_2, y_2)$ et une cinquième tête pour prédire une incertitude partagée (écart-type $\sigma$ ou échelle $\alpha$ ).
Politique Stochastique : Pour permettre l'apprentissage par renforcement (RL), la politique n'est plus une distribution catégorielle, mais une distribution continue (Gaussienne ou Laplacienne).
- Gaussienne : $b \sim \mathcal{N}(\mu, \sigma^2 I)$ .
- Laplacienne : $b \sim \text{Laplace}(\mu, \alpha)$ , motivée par la robustesse de la perte $L_1$ pour la localisation.
Échantillonnage Reparamétré : L'échantillonnage est effectué via la technique de reparamétrisation (ex: $b = \mu + \sigma \cdot \epsilon$ ) pour permettre une estimation de gradient à faible variance.

B. Adaptation pour le Supervisé (SFT) et le Renforcement (RL)

Supervised Fine-Tuning (SFT) : La perte de régression standard (Cross-Entropy) est remplacée par une perte de régression ( $L_2^2$ pour Gaussien, $L_1$ pour Laplacien) sur les coordonnées continues.
Reinforcement Learning (RL - GRPO) :
- Le défi principal est d'adapter les algorithmes de type GRPO (qui reposent sur des distributions catégorielles) à des actions continues.
- Ratio d'importance : Le papier dérive des ratios d'importance analytiques basés sur les densités de probabilité Gaussiennes ou Laplaciennes.
- Pénalité KL : Une pénalité KL fermée est utilisée pour régulariser la politique par rapport à une référence, en se concentrant principalement sur la contrainte de la moyenne ( $\mu$ ) car la variance n'est pas supervisée en SFT.
- Récompense : Une récompense basée sur le résultat final (exactitude de la réponse, validité du format, bonus pour l'utilisation du zoom) guide l'optimisation sans nécessiter d'annotations de boîtes pour chaque étape.

C. Variantes

Le framework propose deux politiques principales :

Gaussienne : Correspond à une perte $L_2^2$ .
Laplacienne : Correspond à une perte $L_1$ , offrant une meilleure robustesse aux valeurs aberrantes et des profils d'erreur plus nets, ce qui s'est avéré supérieur dans les expériences.

3. Contributions Clés

NV-CoT : Un cadre plug-and-play qui permet aux MLLM de générer des coordonnées de boîtes englobantes continues directement, éliminant le décalage modal et la fragmentation sémantique.
Compatibilité RL : Développement de politiques de coordonnées (Gaussienne/Laplacienne) avec échantillonnage reparamétré et ratios d'importance analytiques, rendant la localisation continue compatible avec les algorithmes d'optimisation de politique modernes (GRPO).
Performance Supérieure : Démonstration expérimentale que NV-CoT améliore significativement la précision de localisation, la précision de la réponse finale et la vitesse de convergence par rapport aux méthodes basées sur le texte ou les patches.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks : V*Bench, HR-Bench 4K et HR-Bench 8K, comparant NV-CoT à huit modèles de base (incluant Vis-CoT, DeepEyes, LVR, PaDT, etc.).

Amélioration Globale : NV-CoT surpasse systématiquement les modèles de base (SFT et RL).
- En mode SFT (basé sur Vis-CoT-7B), NV-CoT améliore la précision globale de +3,7% sur V*Bench.
- En mode RL (basé sur DeepEyes-7B), NV-CoT apporte une amélioration supplémentaire de +2,6% sur V*Bench.
Précision de Localisation : Sur le jeu de données Vis-CoT-363K, le IoU (Intersection over Union) des boîtes englobantes passe de 47,3% (Vis-CoT) à 59,5% (NV-CoT avec perte $L_1$ ).
Comparaison des Politiques : La politique Laplacienne (perte $L_1$ ) surpasse constamment la politique Gaussienne (perte $L_2^2$ ), confirmant l'avantage des objectifs de type $L_1$ pour la régression de localisation.
Efficacité : NV-CoT converge plus rapidement lors de l'entraînement et atteint des performances supérieures même avec un backbone de 7B, surpassant des modèles plus grands comme Qwen2.5-VL-32B sur certaines tâches de raisonnement spatial.

5. Signification et Impact

Ce travail représente une avancée significative dans le domaine du raisonnement visuel pour les MLLM :

Unification Perception-Raisonnement : En traitant la localisation comme une action continue plutôt qu'une séquence de tokens, NV-CoT comble le fossé entre la perception visuelle (continue) et le processus de décision du modèle.
Efficacité Architecturale : Contrairement aux méthodes basées sur des patches qui nécessitent des changements architecturaux majeurs, NV-CoT ne nécessite que l'ajout de quelques têtes linéaires légères, le rendant facile à intégrer dans des modèles existants.
Robustesse et Précision : La capacité à prédire des coordonnées continues avec une incertitude estimée permet une localisation plus précise et une meilleure gestion des régions d'intérêt, ce qui est crucial pour des tâches complexes comme la réponse à des questions visuelles (VQA) ou la reconnaissance de caractères optiques (OCR) sur des images haute résolution.

En résumé, NV-CoT démontre que l'abandon de la discrétisation textuelle des coordonnées au profit d'actions continues numériques améliore fondamentalement la capacité des modèles à « penser avec des images ».

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Le Problème : Le Robot qui parle trop mal les mathématiques

La Solution : NV-CoT (Le doigt magique et fluide)

Pourquoi c'est génial ? (Les avantages)

En résumé

1. Problématique et Contexte

2. Méthodologie : NV-CoT

A. Architecture et Espace d'Action

B. Adaptation pour le Supervisé (SFT) et le Renforcement (RL)

C. Variantes

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation