ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous essayez de résoudre une énigme mathématique complexe, comme un casse-tête géométrique, mais que vous êtes obligé de le faire en regardant une photo floue et en parlant à un robot. C'est souvent là que les intelligences artificielles actuelles (les modèles multimodaux) bloquent : elles essaient de tout analyser d'un coup, ou elles regardent la photo à chaque seconde, ce qui les épuise et les fait faire des erreurs.

Le papier que vous avez soumis présente une solution brillante appelée VIRC. Voici une explication simple, avec des images mentales pour mieux comprendre.

1. Le Problème : Le Robot qui "Pète les Plombs"

Imaginez un élève très intelligent mais un peu anxieux.

L'approche actuelle (CoT Visuel) : Cet élève regarde la photo, dit une phrase, regarde à nouveau la photo, dit une autre phrase, regarde encore la photo... Il ne lâche jamais l'image des yeux. Résultat ? Il se perd dans les détails, il est fatigué, et il oublie le but principal. C'est comme essayer de lire un livre en regardant la couverture à chaque mot.
L'approche humaine : Nous, les humains, nous faisons autrement. Nous regardons l'image, nous pensons à une étape, nous la vérifions dans notre tête, et seulement si nécessaire, nous regardons à nouveau l'image pour un détail précis. Nous organisons notre pensée par "blocs".

2. La Solution : Le "Découpage de la Pensée" (Reason Chunking)

Les auteurs s'inspirent d'une loi célèbre de la psychologie (la loi de Miller) qui dit que notre cerveau ne peut retenir que quelques "morceaux" d'information à la fois (environ 7).

Pour résoudre ce problème, VIRC introduit le concept de CRU (Unités de Raisonnement Critique).

L'analogie du Chef de Cuisine : Imaginez un chef qui prépare un grand banquet. Il ne cuisine pas tout d'un coup. Il découpe la tâche en étapes claires :
1. Bloc 1 : Préparer la sauce (il regarde les ingrédients, mélange, goûte).
2. Bloc 2 : Cuire la viande (il regarde la viande, ajuste le feu).
3. Bloc 3 : Assembler le plat.
Entre chaque bloc, le chef ne regarde pas la cuisine entière. Il se concentre sur la tâche en cours. VIRC fait exactement cela avec les mathématiques : il découpe le problème en petits "blocs" logiques. À l'intérieur d'un bloc, le robot raisonne avec des mots. À la fin du bloc, il vérifie s'il a besoin de regarder l'image pour passer au bloc suivant.

3. La Boîte à Outils Intelligente

Pour que ce robot apprenne à faire comme un humain, les chercheurs ont créé un nouveau "livre d'exercices" appelé CRUX.

Ce n'est pas juste un livre de maths. C'est un livre où chaque solution est annotée avec des actions visuelles précises.
Le robot apprend quatre "gestes" cognitifs, comme un détective :
- Planifier : "Regardons l'image en entier pour comprendre le contexte."
- Vérifier : "Attends, je ne suis pas sûr, regardons à nouveau cette partie précise."
- Refléchir : "J'ai regardé ici, mais je dois zoomer pour voir un détail."
- Reculer (Backtracking) : "Oh non, j'ai fait une erreur, je dois changer d'angle de vue."

4. L'Entraînement : L'École en Trois Étages

Pour entraîner ce robot (le modèle VIRC), ils ont utilisé une méthode progressive, comme on apprend à conduire :

Le Cours Théorique (Instructional SFT) : On lui apprend la structure des blocs de pensée sans images, juste avec du texte. Il apprend comment structurer sa logique.
La Pratique sur Piste (Practice SFT) : On lui donne les images et on lui fait pratiquer. Il apprend à utiliser ses outils (zoomer, recadrer) au bon moment.
Le Perfectionnement par le Défi (Strategic RL) : On lui donne les problèmes les plus difficiles. S'il réussit, il est félicité. S'il regarde l'image inutilement ou rate une étape, il est corrigé. C'est ici qu'il devient un expert.

Le Résultat ?

Le modèle VIRC-7B (qui n'est pas énorme, il est "petit" comparé aux géants de l'IA) bat tous les records sur les tests de mathématiques visuelles.

Il fait moins d'erreurs.
Il est plus rapide (il ne perd pas de temps à regarder l'image quand ce n'est pas nécessaire).
Il est plus "intelligent" car il imite la façon dont le cerveau humain gère la complexité : par petits morceaux gérables.

En résumé :
VIRC ne force pas le robot à "voir" tout le temps. Il lui apprend à penser par étapes, à utiliser ses yeux comme un outil précis quand il en a besoin, et à laisser sa logique faire le gros du travail. C'est le passage d'un robot qui "regarde bêtement" à un robot qui "réfléchit intelligemment".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage de grande taille (LLM) ont considérablement amélioré leurs capacités de raisonnement grâce au mécanisme de "Chain-of-Thought" (CoT). Cependant, l'extension de cette approche aux modèles de langage multimodaux (MLLM) pour des tâches mathématiques complexes (notamment la géométrie) rencontre des obstacles majeurs :

Perception statique : Les MLLM existants génèrent généralement des étapes de raisonnement textuel basées sur une seule image statique, manquant ainsi la capacité d'acquérir dynamiquement des informations visuelles fines au cours du processus.
Redondance visuelle : Les approches récentes de "Visual CoT" (VCoT) tentent d'intercaler des tokens visuels à chaque étape de raisonnement. Cela introduit souvent du bruit, des informations redondantes et augmente la charge computationnelle, car le modèle consulte l'image même lorsque ce n'est pas nécessaire.
Absence de structure hiérarchique : Contrairement aux humains qui décomposent un problème complexe en propositions intermédiaires logiques (respectant la "Loi de Miller" sur la capacité de la mémoire de travail), les modèles actuels suivent souvent un chemin de raisonnement linéaire et plat, sans mécanisme explicite de décomposition hiérarchique.

2. Méthodologie : Le Framework VIRC

Les auteurs proposent VIRC (Visual Interleaved Reasoning with Chunking), un cadre qui imite les schémas de résolution de problèmes des experts humains en structurant le raisonnement en Unités de Raisonnement Critique (CRU - Critical Reasoning Units).

A. Le Mécanisme de "Reason Chunking"

Au lieu d'un flux continu, le raisonnement est divisé en une séquence de CRU.

Définition d'un CRU : Une unité autonome encapsulant une proposition intermédiaire vérifiée. Elle contient une séquence de tokens visuels dynamiques ( $v^{(i)}$ ) et un ensemble cohérent d'étapes textuelles ( $s^{(i, \ell)}$ ) qui valident cette proposition.
Avantage : Cela permet une invocation visuelle "à la demande" (seulement entre les CRU) et une décomposition hiérarchique du problème, réduisant la charge cognitive et améliorant la précision.
Outils Visuels : Pour simuler le comportement humain, chaque CRU peut utiliser trois outils :
1. Crop (Recadrage) : Sélection d'une région spécifique.
2. Scale (Mise à l'échelle) : Ajustement de la résolution pour voir les détails.
3. Display (Affichage) : Rappel du contexte visuel global.

B. Le Dataset CRUX

Pour entraîner le modèle à suivre ce mécanisme, les auteurs ont construit CRUX, un dataset de 100 000 échantillons de raisonnement mathématique multimodal.

Pipeline d'annotation :
1. Échantillonnage : Génération de multiples chemins de raisonnement (corrects et incorrects) à différentes échelles d'image.
2. Cartographie (Mapping) : Regroupement des étapes fines en CRU cohérents sémantiquement.
3. Ancrage (Grounding) : Attribution de régions visuelles spécifiques (bounding boxes) et de textes auxiliaires à chaque CRU.
Patterns Cognitifs : Le dataset intègre quatre modes de raisonnement humains : Planification (contexte global), Réflexion (focalisation itérative), Vérification (réexamen des preuves) et Retour en arrière (Backtracking pour corriger les erreurs d'échelle ou de perception).

C. Stratégie d'Entraînement Progressive

Une stratégie en trois étapes, inspirée de l'apprentissage cognitif humain, est utilisée :

Instructional SFT (Supervised Fine-Tuning) : Apprentissage de la structure textuelle des CRU sur une sous-partie textuelle du dataset (masquant les signaux visuels) pour internaliser le format logique.
Practice SFT : Entraînement multimodal complet où le modèle exécute les appels d'outils et reçoit les retours visuels pour compléter les CRU.
Strategic RL (Reinforcement Learning) : Optimisation sur un sous-ensemble difficile ("Hard Subset") utilisant une fonction de récompense composite :
- Exactitude de la réponse ( $r_{ans}$ ).
- Cohérence multimodale ( $r_{mm}$ ) : évaluation de la pertinence du texte par rapport à l'image.
- Alignement des patterns de raisonnement ( $r_{pattern}$ ) : récompense pour l'utilisation correcte des outils (ex: faire un "scale" lors d'un retour en arrière).
- Pénalité de format ( $r_{format}$ ).

3. Résultats Expérimentaux

Le modèle VIRC-7B a été évalué sur plusieurs benchmarks mathématiques et de haute résolution.

Performances Mathématiques :
- Sur GeoQA, MMStar-Math et MathVista-Math, VIRC-7B atteint une amélioration moyenne de 18,8 % par rapport aux modèles de base (Qwen2.5-VL-7B).
- Il surpasse les modèles state-of-the-art (SOTA) comme MM-Eureka (+7,44 % en moyenne) et MINT-CoT.
- Le modèle VIRC-3B (plus petit) atteint des performances comparables aux modèles SOTA beaucoup plus grands.
Généralisation :
- Le modèle démontre une forte capacité de généralisation sur des benchmarks d'images haute résolution (2K-16K) comme VisualProbe, V* et HR-Bench, surpassant les baselines de 9 % en moyenne, bien qu'entraîné principalement sur des schémas mathématiques.
Efficacité :
- L'analyse d'ablation montre que l'utilisation de CRU réduit la consommation de tokens et la latence d'inférence par rapport aux approches VCoT denses, tout en augmentant la précision.

4. Contributions Clés

Framework VIRC : Introduction d'un mécanisme de "Reason Chunking" qui structure le raisonnement multimodal en unités logiques (CRU), aligné sur les principes cognitifs humains (Loi de Miller).
Dataset CRUX : Création du premier dataset de raisonnement entrelacé visuellement avec des annotations explicites de CRU et de multiples chemins de raisonnement (corrects et incorrects).
Stratégie d'Entraînement : Conception d'un pipeline d'entraînement progressif (SFT Instructionnel, SFT Pratique, RL Stratégique) qui permet au modèle d'apprendre non seulement à raisonner, mais aussi à sélectionner judicieusement les outils visuels.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine du raisonnement mathématique multimodal. Il démontre que la simple augmentation de la densité des tokens visuels n'est pas la solution optimale. À la place, imiter la structure cognitive humaine (décomposition en étapes, vérification sélective, retour en arrière) via des unités de raisonnement structurées permet d'obtenir une meilleure précision, une meilleure efficacité computationnelle et une plus grande robustesse face aux images complexes.

L'approche VIRC offre une nouvelle voie pour développer des agents IA capables de "penser" avec des images de manière aussi stratégique et efficace que des experts humains, avec un code et des données entièrement open-source pour favoriser la recherche future.