CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Each language version is independently generated for its own context, not a direct translation.

🧠 COGFLOW : L'Art de "Voir" et de "Comprendre" les Maths

Imaginez que vous demandez à un robot de résoudre un problème de géométrie complexe dessiné sur une feuille.

Les robots actuels ont souvent un problème : soit ils voient mal le dessin (ils confondent un angle avec une ligne), soit ils voient bien le dessin mais déduisent n'importe quoi (ils inventent des règles qui n'existent pas). C'est comme si quelqu'un vous donnait les ingrédients d'un gâteau, mais vous décidiez de les cuire dans le micro-ondes au lieu du four, puis vous vous étonniez que le résultat ne soit pas un gâteau.

COGFLOW est une nouvelle méthode qui apprend aux robots à faire comme les humains : Voir ➔ Comprendre ➔ Déduire.

Voici comment ça marche, étape par étape, avec des analogies du quotidien.

1. Le Problème : Le "Décalage de Pensée"

Les chercheurs ont remarqué que les modèles d'IA actuels souffrent d'un "dérive de raisonnement".

L'analogie : Imaginez un détective qui trouve une empreinte digitale (la perception) sur une scène de crime. Mais au lieu de l'utiliser pour identifier le coupable, il se met à inventer une histoire de fantôme parce que c'est plus facile à raconter. Il a vu l'empreinte, mais il l'a ignorée dans son histoire.
En maths visuelles, l'IA voit un cercle, mais dans son raisonnement, elle traite ce cercle comme un carré, ou elle oublie qu'un point est sur la ligne. Le résultat est faux, même si la logique semble bonne.

2. La Solution : Le Framework COGFLOW

COGFLOW imite le cerveau humain en trois étapes distinctes, comme une chaîne de montage très rigoureuse.

Étape 1 : La Perception (Le "Regard" de l'artiste)

Au lieu de juste "regarder" l'image, le robot doit la décrire mathématiquement.

L'analogie : C'est comme si un architecte ne se contentait pas de regarder une maison, mais qu'il prenait un mètre pour mesurer chaque mur, chaque fenêtre et chaque angle, et qu'il les notait sur un plan précis avec des coordonnées (x, y).
La nouveauté : COGFLOW utilise une récompense spéciale (les Synergistic Visual Rewards) qui vérifie deux choses :
1. La précision technique : Est-ce que les mesures sont justes ? (Comme vérifier les dimensions d'un meuble).
2. La cohérence globale : Est-ce que le dessin ressemble bien à ce qui a été décrit ? (Comme vérifier que le meuble assemblé a le bon style).

Étape 2 : L'Internalisation (Le "Café" du cerveau)

C'est l'étape la plus importante et la plus originale. Avant de résoudre le problème, le robot doit "digérer" ce qu'il a vu. Il transforme les mesures brutes en connaissances solides.

L'analogie : Imaginez que vous avez lu un livre de cuisine (les mesures). Avant de cuisiner, vous devez vous asseoir et comprendre : "Ah, si j'ai un œuf et du lait, je peux faire une omelette". Vous ne sautez pas directement à la cuisson.
COGFLOW force le robot à dire : "J'ai vu un diamètre, donc je sais maintenant que l'angle opposé est de 90 degrés". Il crée un pont entre ce qu'il voit et ce qu'il va calculer.
Pour cela, il utilise un récompense d'internalisation qui punit le robot s'il oublie une information ou s'il invente une règle qui n'est pas dans le dessin.

Étape 3 : Le Raisonnement (Le "Chef cuisinier")

Maintenant que le robot a ses mesures précises et qu'il a bien compris les règles, il peut résoudre le problème.

L'analogie : C'est le moment de cuisiner. Comme il a bien préparé ses ingrédients (étape 1) et compris la recette (étape 2), il ne risque plus de mettre du sel à la place du sucre.
Le Gardien Visuel (Visual Gate) : C'est une sécurité. Si le robot commence à raisonner en se basant sur une mauvaise mesure, ce "gardien" l'arrête et lui dit : "Attends, ton premier dessin était faux, recommence le dessin avant de continuer". Cela empêche l'erreur de se propager.

3. Pourquoi c'est révolutionnaire ?

L'article présente aussi une nouvelle "boîte à outils" appelée MATHCOG.

L'analogie : C'est comme si les chercheurs avaient créé un nouveau manuel d'apprentissage pour les robots, où chaque exercice est divisé en trois parties claires : "Ce que je vois", "Ce que je comprends", et "Ma solution". Avant, les robots apprenaient tout en vrac.

Les résultats ?
Les tests montrent que COGFLOW bat les meilleurs robots actuels (même ceux beaucoup plus gros et plus chers) sur les problèmes de maths visuels.

Il fait moins d'erreurs de "hallucination" (invention de faits).
Il est plus fiable : si le dessin est complexe, il ne panique pas, il suit sa méthode.

En résumé

COGFLOW, c'est comme apprendre à un élève à ne pas seulement "deviner" la réponse à un problème de géométrie, mais à :

Mesurer soigneusement le dessin.
Prendre des notes claires sur ce que ces mesures signifient.
Ne commencer à calculer que lorsque ces notes sont parfaites.

C'est une approche qui rend l'intelligence artificielle plus humaine, plus logique et surtout, beaucoup plus fiable pour résoudre les problèmes visuels complexes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels peinent à résoudre des problèmes mathématiques visuels complexes, malgré les progrès récents. L'analyse des travaux existants révèle deux approches principales, chacune présentant des limites critiques :

Raisonnement en une étape (One-step) : Le modèle intercale perception et raisonnement de manière non structurée, entraînant souvent des erreurs à la fois perceptives et logiques.
Pipeline découplé (Decoupled) : La perception et le raisonnement sont séparés. Bien que cela améliore l'extraction visuelle, cela crée un problème majeur de dérive du raisonnement (Reasoning Drift). Le modèle génère des chaînes de raisonnement qui semblent cohérentes linguistiquement mais qui ne respectent pas fidèlement les preuves visuelles extraites (par exemple, ignorer des contraintes géométriques ou inventer des faits).

Le cœur du problème identifié par les auteurs est que les travaux antérieurs se concentrent sur l'extraction de l'information visuelle, mais négligent la question cruciale de savoir si ces indices visuels sont fidèlement intégrés et correctement utilisés dans les étapes ultérieures de raisonnement.

2. Méthodologie : COGFLOW

Pour répondre à ce défi, les auteurs proposent COGFLOW, un cadre d'apprentissage par renforcement (RL) inspiré de la cognition humaine. Il modélise explicitement un flux hiérarchique en trois étapes : Perception $\Rightarrow$ Internalisation $\Rightarrow$ Raisonnement.

Le cadre repose sur trois composants techniques clés :

A. Récompenses Visuelles Synergiques (Synergistic Visual Rewards - SynVRs)

Pour améliorer la perception dans les espaces paramétrique et sémantique, COGFLOW utilise une récompense hybride :

Récompense Paramétrique Visuelle (VPR) : Elle convertit les informations visuelles structurées (points, lignes, cercles) en expressions paramétriques (ex: équations de cercles). Elle calcule la distance euclidienne dans l'espace des paramètres entre les primitives prédites et la vérité terrain (en utilisant l'algorithme d'appariement hongrois). Cela assure une fidélité géométrique locale.
Récompense Sémantique Visuelle (VSR) : Elle re-renderise la réponse textuelle en image et compare l'image générée avec l'image originale à l'aide d'un encodeur FG-CLIP. Elle mesure la similarité cosinus dans l'espace sémantique pour garantir la cohérence globale du style et de la mise en page.

Objectif : Ces deux récompenses agissent en synergie pour fournir des indices visuels fiables, servant de fondation au raisonnement.

B. Récompense d'Internalisation des Connaissances (Knowledge Internalization Reward - IntlzR)

Cette étape est le pont entre la perception et le raisonnement. Elle vise à empêcher la dérive du raisonnement en forçant le modèle à transformer les signaux perceptifs bruts en représentations de connaissances structurées et prêtes à être utilisées.

Mécanisme : Un modèle de récompense est entraîné via une optimisation par préférence directe (Softmax-DPO) sur un jeu de données contrastif.
Données d'entraînement : Le jeu de données contient des trajectoires positives (raisonnement fidèle) et cinq types de trajectoires négatives synthétisées injectant des erreurs spécifiques : omission/mal-liage de primitives, introduction de faits inexistants, invocation inappropriée de théorèmes, contradiction des contraintes géométriques, et référence incohérente aux éléments établis.
But : Assurer que le raisonnement reste ancré dans la structure visuelle internalisée.

C. Optimisation de la Politique à Portes Visuelles (Visual-Gated Policy Optimization - VGPO)

Pour stabiliser le raisonnement multi-étapes, COGFLOW introduit un mécanisme de "porte" (gate) visuelle.

Fonctionnement : Avant de générer la chaîne de raisonnement, le modèle génère plusieurs trajectoires de perception candidates. Une porte visuelle évalue la qualité de chaque perception (via les scores SynVRs). Seules les trajectoires de perception de haute qualité (dépassant un seuil $\tau$ ) sont autorisées à passer à l'étape de raisonnement.
Optimisation : Si une trajectoire est rejetée, le modèle régénère une alternative. L'optimisation RL (basée sur GRPO) intègre cette porte pour ancrer le processus de raisonnement dans la précision perceptive, évitant ainsi que le modèle ne suive des raccourcis logiques non fondés visuellement.

3. Contributions Clés

Nouveau Paradigme Cognitif : Introduction d'une architecture à trois étapes (Perception, Internalisation, Raisonnement) qui simule le flux hiérarchique humain, comblant le fossé entre l'extraction visuelle et son utilisation logique.
Mécanismes de Récompense Innovants :
- SynVRs : Une supervision visuelle combinant précision géométrique (paramétrique) et cohérence globale (sémantique).
- IntlzR : Un modèle de récompense spécifique pour détecter et corriger la dérive du raisonnement en évaluant la fidélité de l'intégration des indices visuels.
Stratégie d'Optimisation VGPO : Un algorithme qui filtre activement les perceptions de mauvaise qualité avant le raisonnement, assurant une stabilité accrue et une meilleure interprétabilité.
Jeu de Données MATHCOG : Création d'un nouveau dataset de plus de 120 000 échantillons avec des annotations désagrégées pour la perception et le raisonnement, incluant des trajectoires négatives pour l'entraînement de l'internalisation.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks standards de raisonnement mathématique visuel (FlowVerse, MathVerse, MathVista, WeMath, LogicVista, DynaMath).

Performance Globale : COGFLOW (basé sur Qwen2.5-VL-7B) surpasse systématiquement les modèles open-source de taille comparable et rivalise, voire dépasse, des modèles propriétaires fermés beaucoup plus grands (comme GPT-4o, Gemini-2.5-pro, Claude-3.5-Sonnet).
- Exemple : Sur FlowVerse, COGFLOW atteint 66,0 % de précision (vs 50,7 % pour VLM-R1 et 64,2 % pour GPT-4V).
- Sur MathVista, il atteint 76,8 %, surpassant tous les modèles open-source et se positionnant au-dessus de nombreux modèles fermés.
Analyse des Erreurs : L'analyse détaillée montre que COGFLOW réduit significativement les erreurs de perception, les erreurs d'internalisation des connaissances et les erreurs de raisonnement par rapport aux méthodes de base.
Études d'Ablation :
- L'ajout de SynVRs améliore la fidélité perceptive.
- L'ajout d'IntlzR réduit la dérive du raisonnement.
- VGPO apporte le gain de performance le plus important en stabilisant le raisonnement à long terme.
- La combinaison des trois composants est nécessaire pour obtenir les meilleurs résultats.

5. Signification et Impact

Ce travail est significatif car il déplace le focus de la simple amélioration de la perception visuelle vers l'intégration fidèle de cette perception dans le processus de raisonnement.

Il résout le problème de la "dérive du raisonnement" où les modèles ignorent les preuves visuelles au profit de la cohérence textuelle.
Il démontre que l'inspiration par la science cognitive (internalisation des connaissances) peut être formalisée algorithmiquement pour améliorer les capacités de raisonnement des MLLM.
La méthode propose une voie évolutive pour rendre les modèles de raisonnement visuel plus robustes, interprétables et fiables, avec des applications potentielles au-delà des mathématiques, dans tout domaine nécessitant un raisonnement ancré sur des preuves visuelles.

En résumé, COGFLOW établit un nouvel état de l'art en démontrant qu'un cadre structuré, combinant une perception précise, une internalisation rigoureuse et un raisonnement verrouillé visuellement, est essentiel pour résoudre des problèmes mathématiques complexes.