Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Les auteurs proposent GeoCode, un nouveau jeu de données généré à partir de zéro pour le raisonnement géométrique multimodal qui améliore l'alignement visuel-symbolique via la prédiction de code de tracé et démontre des performances supérieures sur plusieurs benchmarks.

Haobo Lin, Tianyi Bai, Chen Chen, Jiajun Zhang, Bohan Zeng, Wentao Zhang, Binhang Yuan

Publié 2026-02-24
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment résoudre des problèmes de géométrie, comme ceux qu'on trouve dans les manuels scolaires ou les concours de mathématiques.

Le Problème : Le Robot est "Aveugle" aux Formes

Actuellement, les intelligences artificielles (IA) sont très fortes pour lire du texte et très fortes pour regarder des photos de chats ou de paysages. Mais quand il s'agit de géométrie, elles ont un gros problème : elles ne comprennent pas vraiment le lien entre le dessin et la logique.

C'est comme si on donnait à un élève un énoncé de problème écrit en français, mais qu'on lui interdisait de regarder le dessin. Il doit deviner la forme du triangle ou la position des points uniquement grâce aux mots. Souvent, l'IA se trompe car elle "devine" la réponse en se basant sur des mots-clés plutôt que sur la structure réelle du dessin.

La Solution : Créer une "Usine à Problèmes" (GeoCode)

Les chercheurs de cette étude (de l'HKUST, JLU, etc.) ont décidé de ne pas chercher de problèmes existants, mais de construire leur propre usine à problèmes de zéro. Ils ont créé un dataset (une bibliothèque de données) appelé GeoCode.

Voici comment leur "usine" fonctionne, étape par étape, avec une analogie :

1. L'Architecte (La Graine Symbolique)

Au lieu de dessiner au hasard, ils commencent par un plan abstrait, comme un architecte qui dessine les fondations d'une maison sans encore choisir la couleur des murs.

  • Ce qu'ils font : Ils utilisent un système logique pour créer des relations mathématiques pures (ex: "Le point A est perpendiculaire au point B").
  • L'analogie : C'est comme écrire une recette de cuisine purement logique : "Si tu as de la farine et des œufs, tu peux faire un gâteau", sans encore avoir les ingrédients.

2. Le Constructeur (L'Instantiation)

Ensuite, ils donnent ces plans à un grand modèle de langage (une IA très intelligente) pour qu'il remplisse les détails.

  • Ce qu'ils font : L'IA choisit des nombres réels (ex: "Le côté mesure 5 cm"), écrit l'énoncé du problème en langage naturel et explique comment le résoudre.
  • L'analogie : C'est l'étape où l'on achète les ingrédients et où l'on écrit les instructions précises pour le cuisinier.

3. Le Dessinateur Automatique (Le Code de Tracé)

C'est ici que la magie opère. Au lieu de simplement générer une image, l'usine génère du code informatique (du "code de tracé") qui dessine le diagramme.

  • Ce qu'ils font : Le code dit exactement : "Place un point ici, trace une ligne là, fais un cercle de ce rayon".
  • L'analogie : Imaginez que pour construire une maison, on ne donne pas juste une photo de la maison finie, mais les plans de construction exacts (les coordonnées de chaque brique). Si le code dit "murs droits", le dessin sera droit. Si le code dit "cercle parfait", le dessin sera parfait.

L'Innovation Clé : Apprendre par le Code, pas par le Texte

C'est le cœur de leur découverte. Habituellement, on apprend à une IA à résoudre un problème en lui montrant le dessin et la réponse finale. Ici, ils ajoutent une étape cruciale : ils forcent l'IA à prédire le code de tracé avant de donner la réponse.

  • L'analogie du "Dessin sur le dos" : Imaginez que vous voulez apprendre à quelqu'un à reconnaître un triangle.
    • Méthode ancienne : Vous montrez un triangle et dites "C'est un triangle". L'IA mémorise l'image.
    • Méthode GeoCode : Vous montrez le triangle et dites : "Pour dessiner ça, tu dois d'abord placer un point ici, puis tracer une ligne de 5 cm vers la droite, puis un angle de 60 degrés...".
    • Pourquoi c'est mieux ? En obligeant l'IA à écrire le "code" (les instructions de construction), elle est obligée de comprendre la structure du dessin. Elle ne peut plus tricher en regardant juste les mots. Elle doit "voir" la géométrie pour pouvoir la reconstruire.

Les Résultats : Un Entraînement de Haute Qualité

Grâce à cette méthode, ils ont créé 18 000 problèmes de géométrie qui sont :

  1. Plus difficiles que ceux qu'on trouve habituellement (comme des problèmes d'olympiades).
  2. Parfaitement cohérents (le dessin correspond toujours à l'énoncé, pas d'erreurs).
  3. Vérifiés : Chaque problème passe par des contrôles mathématiques stricts pour s'assurer qu'il n'y a pas d'erreur.

Quand ils ont entraîné des IA avec ces nouveaux problèmes, les modèles sont devenus beaucoup plus forts. Ils ne se contentent plus de deviner ; ils arrivent à "voir" la structure géométrique cachée dans les images et à raisonner logiquement, même sur des problèmes très complexes qu'ils n'ont jamais vus auparavant.

En Résumé

Cette recherche dit : "Pour apprendre à une IA à faire de la géométrie, ne lui donnez pas juste des images et des réponses. Donnez-lui les plans de construction (le code) pour qu'elle apprenne à reconstruire le monde géométrique elle-même."

C'est comme passer d'un élève qui apprend par cœur les réponses à un élève qui comprend vraiment comment les formes sont construites.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →