LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'Architecte qui oublie ses croquis

Imaginez que vous demandez à un grand expert en mathématiques (une Intelligence Artificielle) de résoudre un problème de géométrie complexe. Le problème est dessiné sur un papier, mais pour le résoudre, il ne suffit pas de regarder le dessin tel quel. Il faut souvent ajouter des lignes invisibles (des "lignes auxiliaires") pour créer de nouveaux triangles ou angles qui permettent de trouver la réponse.

C'est comme si vous deviez réparer une voiture, mais vous n'aviez pas le droit de toucher aux pièces, ni de dessiner un nouveau plan sur un papier. Vous deviez juste "penser" à la pièce manquante.

Les modèles d'IA actuels sont excellents pour lire ce qui est déjà dessiné, mais ils échouent souvent quand ils doivent inventer ces lignes manquantes.

S'ils essaient de les dessiner à l'écran (pixel par pixel), c'est lent et souvent moche (comme un dessin d'enfant).
S'ils essaient de les décrire avec des mots, ils se perdent dans le labyrinthe de l'espace et inventent des choses qui n'existent pas (des "hallucinations").

💡 La Solution : LatentGeo, le "Dessin dans la Tête"

Les chercheurs proposent une nouvelle méthode appelée LatentGeo. Au lieu de forcer l'IA à dessiner sur un écran ou à parler sans fin, ils lui apprennent à visualiser mentalement les lignes manquantes.

Voici l'analogie pour comprendre comment ça marche :

1. Le "Brouillon Invisible" (Représentation Latente)

Imaginez que l'IA a un cahier de brouillon magique qu'elle garde caché dans sa tête.

Quand elle voit un problème, elle ne dessine pas sur le papier final.
Elle écrit des "mots magiques" (des jetons latents) dans son cahier mental. Ces mots ne sont pas du texte, ni des pixels, mais une sorte de représentation pure de la forme et de l'espace.
C'est comme si l'architecte fermait les yeux et voyait parfaitement la ligne droite qu'il faut ajouter, sans avoir besoin de la tracer physiquement. Cela évite les erreurs de dessin et va beaucoup plus vite.

2. L'Entraînement en 3 Étapes (Le Parcours de l'Écolier)

Pour apprendre à l'IA à utiliser ce "cahier mental", les chercheurs ont créé un entraînement en trois étapes, comme un cours de natation :

Étape 1 : Avec les bouées (Alignement Visuel).
L'IA regarde le problème et la solution parfaite (le dessin avec les lignes ajoutées). On lui montre : "Regarde, c'est ici qu'il faut ajouter la ligne". Elle apprend à associer ses "mots magiques" à la vraie forme géométrique.
Étape 2 : Sans bouées, mais avec un plan (Internalisation).
On enlève le dessin de la solution. On donne juste un plan écrit (ex: "Trace une ligne perpendiculaire"). L'IA doit maintenant utiliser son "cahier mental" pour imaginer la ligne sans voir le résultat final. Elle apprend à faire confiance à son plan.
Étape 3 : Le grand plongeon (Raisonnement Autonome).
On ne donne plus ni dessin, ni plan. Juste le problème. L'IA doit tout faire seule : imaginer la ligne manquante dans sa tête, puis utiliser cette image mentale pour trouver la réponse.

3. Le Coach Sportif (L'Apprentissage par Renforcement)

Une fois que l'IA sait faire ça, on utilise un système de récompense (comme un coach de sport).

Si l'IA trouve la bonne réponse, elle a un point.
Si elle dessine trop de lignes inutiles ou si elle répète la même chose, elle perd des points.
Le système LaGDPO (un nom compliqué pour un coach intelligent) s'assure que l'IA ne perd pas ses repères et ne se contente pas de bavarder en mots, mais continue d'utiliser son "cahier mental" pour visualiser l'espace.

🏆 Le Résultat : Un Champion de Géométrie

Les chercheurs ont créé un nouveau test spécial appelé GeoAux, rempli de problèmes qui nécessitent absolument de dessiner des lignes cachées.

Les résultats sont impressionnants :

Les modèles classiques (comme GPT-4o) se débrouillent bien, mais échouent souvent sur les problèmes les plus complexes.
LatentGeo bat tout le monde. Il est capable de "voir" les lignes invisibles et de résoudre des problèmes de géométrie que les autres modèles ne peuvent pas toucher.

🎯 En Résumé

LatentGeo, c'est comme donner à un élève un super-pouvoir de visualisation mentale. Au lieu de le forcer à dessiner maladroitement sur un tableau blanc ou à essayer de tout expliquer avec des mots, on lui apprend à "voir" les lignes manquantes dans sa tête, à les manipuler mentalement, et à utiliser cette vision claire pour résoudre l'énigme.

C'est une avancée majeure car cela permet aux intelligences artificielles de mieux comprendre l'espace et la géométrie, non pas en calculant des pixels, mais en imaginant la structure du monde.

Each language version is independently generated for its own context, not a direct translation.

Titre

LatentGeo : Constructions Auxiliaires Apprenables dans l'Espace Latent pour le Raisonnement Géométrique Multimodal

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels excellent dans le raisonnement mathématique général, mais ils peinent face à la géométrie complexe. Le défi fondamental réside dans la capacité à effectuer des constructions auxiliaires : l'introduction d'éléments géométriques nouveaux (lignes, points, cercles) qui ne sont pas présents dans le diagramme original mais qui sont indispensables pour appliquer les théorèmes et résoudre le problème.

Les approches existantes souffrent de limitations majeures :

Raisonnement purement textuel : Il échoue souvent à capturer fidèlement les relations spatiales complexes, conduisant à des hallucinations géométriques.
Génération visuelle explicite (Sketching) : Les méthodes qui génèrent des esquisses intermédiaires (pixels) souffrent d'un décalage de représentation entre symboles discrets et structures continues, et sont coûteuses en calcul.
Exécution assistée par outils : L'utilisation d'outils externes (comme des solveurs géométriques) empêche l'optimisation de bout en bout (end-to-end) et échoue lorsque les contraintes géométriques sont implicites.

2. Méthodologie : LatentGeo

LatentGeo propose un changement de paradigme : au lieu de générer des images explicites ou de se fier à des outils externes, le modèle internalise les constructions auxiliaires sous forme de représentations visuelles latentes continues.

Architecture et Mécanisme

Le framework repose sur une factorisation de l'inférence en trois étapes :

Planification Symbolique : Génération d'un plan géométrique discret ( $T_{plan}$ ).
Construction Latente : Génération d'une séquence de tokens latents continus ( $Z$ ) qui représentent implicitement les lignes et formes auxiliaires.
Raisonnement Final : Utilisation de ces représentations latentes pour déduire la réponse ( $A$ ).

Le modèle utilise une architecture basée sur Qwen2.5-VL, enrichie par des tokens spéciaux apprenables (<|latent_start|>, <|latent_end|>, etc.) et un projecteur léger qui mappe les caractéristiques visuelles d'un diagramme auxiliaire (lors de l'entraînement) vers l'espace d'embedding du LLM.

Stratégie d'Entraînement (Curriculum Learning)

Pour apprendre cette capacité sans diagrammes auxiliaires lors de l'inférence, les auteurs proposent un curriculum en trois étapes :

Alignement Visuel-Latent (SFT) : Le modèle apprend à aligner les tokens latents avec les représentations visuelles réelles des constructions auxiliaires (diagrammes de vérité terrain) via une perte hybride (similarité cosinus + MSE).
Internalisation Guidée par le Plan (SFT) : Le modèle est entraîné à générer les représentations latentes uniquement à partir du plan symbolique ( $T_{plan}$ ), sans accès à l'image auxiliaire. Une perte de cohérence asymétrique aligne la sortie textuelle sur la sortie visuelle de référence.
Raisonnement de Bout en Bout (SFT) : Suppression totale de la supervision visuelle. Le modèle est entraîné sur la séquence complète (Plan + Latent + Réponse) via une perte d'entropie croisée standard.

Optimisation par Renforcement (LaGDPO)

Pour optimiser directement la justesse de la réponse finale tout en stabilisant les représentations latentes, les auteurs introduisent LaGDPO (Latent-aware Group-Decoupled Policy Optimization).

Récompenses : Un système de récompenses combiné évalue la justesse de la réponse, la présence d'une unique construction latente valide, la longueur du texte et l'absence de répétition.
Estimation Découplée par Groupe : Pour éviter l'instabilité des gradients due à des récompenses de magnitudes différentes, les récompenses sont normalisées au sein d'un groupe d'échantillons avant d'être agrégées.
Stabilisation du Décodage : Un biais dynamique est appliqué aux tokens de début/fin latents pendant l'exploration (RL) pour empêcher le modèle de tomber dans un raisonnement purement textuel (effondrement de la représentation latente).

3. Contributions Clés

Paradigme de Construction Latente : LatentGeo est le premier cadre à internaliser les constructions géométriques auxiliaires via des tokens latents continus, évitant le rendu pixel par pixel et la rigidité des outils externes.
Stratégie de Curriculum : Une méthode d'apprentissage en trois étapes permettant au modèle de passer d'une supervision visuelle explicite à une capacité autonome de construction latente.
Optimisation de Politique Stabilisée (LaGDPO) : Une procédure RL innovante qui préserve la capacité de raisonnement visuel latent tout en maximisant la précision de la tâche finale.
Benchmark GeoAux : Introduction d'un nouveau benchmark dédié aux problèmes de géométrie dépendants de la vision et nécessitant des constructions intermédiaires, comblant un vide dans l'évaluation des capacités constructives des MLLM.

4. Résultats Expérimentaux

Les expériences ont été menées sur GeoAux (benchmark proposé) et MathVerse.

Sur GeoAux : LatentGeo (7B) atteint une précision globale de 34,6 %, surpassant les modèles propriétaires (GPT-4o : 30,3 %) et les modèles open-source plus grands (Qwen2.5-VL-32B : 33,1 %).
- Les gains sont particulièrement marqués sur les opérations visuelles complexes : +35,3 % pour la construction angulaire et +25,4 % pour la projection spatiale par rapport à la base Qwen2.5-VL-7B.
Sur MathVerse : Le modèle atteint 41,4 % de précision, dépassant les meilleurs modèles spécialisés en mathématiques open-source de 6,7 %. Les améliorations sont significatives dans les catégories dépendantes de la vision (VD et VO).
Études d'Abalation :
- L'ajout des représentations latentes améliore la précision de 26,7 % (texte seul) à 34,6 %.
- L'étape 2 du curriculum (internalisation) est critique : son omission fait chuter la précision à 13,1 %.
- La phase RL (LaGDPO) est essentielle pour stabiliser le modèle ; le remplacement par des méthodes RL standards (GRPO/GDPO) entraîne un effondrement des performances.

5. Signification et Impact

LatentGeo démontre que les MLLM peuvent apprendre à "visualiser" et à "construire" mentalement des éléments géométriques sans avoir besoin de générer des images explicites ou d'utiliser des moteurs de calcul externes.

Efficacité : L'approche est plus rapide et plus robuste que la génération d'images intermédiaires.
Optimisation End-to-End : Elle permet un entraînement unifié du système de perception, de planification et de raisonnement.
Fondation pour l'Avenir : Le benchmark GeoAux et la méthodologie LatentGeo ouvrent la voie à une meilleure évaluation et à de nouvelles recherches sur le raisonnement spatial constructif, un domaine crucial pour l'intelligence artificielle géométrique.

En résumé, LatentGeo résout le problème de la "cécité constructive" des modèles actuels en leur apprenant à manipuler des concepts géométriques abstraits directement dans leur espace latent, menant à des performances state-of-the-art sur des tâches de géométrie complexes.