VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Ce papier présente VisioMath, un nouveau benchmark de 1 800 problèmes mathématiques K-12 basé sur des diagrammes visuellement similaires, qui révèle les limites actuelles des modèles multimodaux dans le raisonnement comparatif fin et propose des stratégies d'alignement pour améliorer leur précision.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang

Publié 2026-03-09
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🧐 Le Grand Défi des Images Qui Se Ressemblent

Imaginez que vous êtes dans une salle d'examen. Le professeur vous montre une question de mathématiques, mais au lieu de vous donner des choix de réponses écrits (A, B, C, D), il vous montre quatre dessins.

Ces dessins sont presque identiques. C'est comme regarder quatre œufs dans un panier : ils semblent tous pareils au premier coup d'œil. Pour trouver la bonne réponse, vous devez repérer un tout petit détail : peut-être que la ligne du graphique est un tout petit peu plus penchée, ou que le coin d'un cube est un peu plus arrondi.

C'est exactement le défi que les chercheurs ont voulu tester avec leurs nouvelles "intelligences artificielles" (les modèles multimodaux).

1. Le Problème : Les IA sont de superbes lecteurs, mais de mauvais observateurs

Aujourd'hui, les intelligences artificielles (IA) sont incroyables. Elles peuvent lire un livre entier en une seconde et comprendre ce qu'elles voient sur une photo. Mais les chercheurs ont découvert un gros problème : quand il faut comparer plusieurs images très similaires, les IA se trompent souvent.

C'est comme si l'IA disait : "Ah, l'option A est en haut à gauche, donc c'est sûrement la bonne !" au lieu de vraiment regarder les dessins. Elle triche en utilisant des repères de position plutôt que de faire le travail de détective visuel.

2. La Solution : VisioMath, le nouveau terrain de jeu

Pour tester cette faiblesse, l'équipe a créé VisioMath. C'est une nouvelle "boîte à outils" (un benchmark) remplie de 1 800 questions de mathématiques (niveau collège et lycée).

  • La particularité : Dans chaque question, les 4 réponses possibles sont des images.
  • Le piège : Ces images sont des jumeaux presque parfaits. Il faut un œil de lynx pour voir la différence.
  • L'objectif : Voir si les IA peuvent vraiment "comprendre" les mathématiques visuelles ou si elles se contentent de deviner.

3. Ce qu'ils ont découvert : Le "Malentendu"

Quand ils ont fait passer le test aux IA les plus puissantes du monde (comme GPT-4, Gemini, etc.), le résultat a été sans appel : plus les images se ressemblaient, plus l'IA perdait ses moyens.

Les chercheurs ont trouvé la cause du problème : c'est un problème de connexion.
Imaginez que l'IA a deux oreilles : une pour entendre les mots (le texte de la question) et une pour voir les images. Le problème, c'est que l'IA ne parvient pas à bien relier le mot "A" à l'image "A" quand il y a trop de bruit visuel. Elle perd le fil et commence à faire des suppositions basées sur la position des images plutôt que sur leur contenu.

C'est comme si vous demandiez à quelqu'un de choisir la bonne clé dans un trousseau de 4 clés identiques, mais que cette personne regardait seulement l'ordre dans lequel vous les avez présentées, sans jamais toucher les clés !

4. Les Remèdes : Comment aider l'IA à mieux voir ?

L'équipe a testé trois astuces pour aider les IA à faire de leur mieux :

  • Astuce 1 : Tout mettre sur une seule table. Au lieu de montrer les images séparément, on les colle toutes ensemble sur une seule grande image.
    • Résultat : L'IA se débrouille mieux, car elle n'a pas besoin de sauter d'un écran à l'autre pour comparer.
  • Astuce 2 : Mettre des étiquettes claires. On écrit directement la lettre (A, B, C, D) sur chaque image.
    • Résultat : L'IA ne peut plus se tromper de clé. Elle voit immédiatement que "cette image-ci est bien l'option A".
  • Astuce 3 : Lui apprendre à raisonner (Le "CoT"). C'est l'astuce la plus puissante. On a entraîné l'IA avec un petit manuel qui lui apprend à dire : "D'abord, je regarde l'image A et je vois telle chose. Ensuite, je regarde l'image B...".
    • Résultat : Magique ! Même avec très peu d'exemples, l'IA a fait un bond en avant. Elle a appris à ne plus tricher et à vraiment comparer les détails.

🎯 En Résumé

VisioMath nous apprend une leçon importante : les IA sont devenues très fortes, mais elles ont encore du mal à faire la différence entre des choses qui se ressemblent énormément. Elles ont tendance à "tricher" en regardant l'ordre des choses plutôt que leur contenu.

Ce travail est crucial pour l'avenir, surtout dans l'éducation. Si nous voulons que les robots aident les élèves à résoudre des problèmes de géométrie ou à comprendre des schémas complexes, nous devons d'abord leur apprendre à être de véritables observateurs, et non pas de simples devineurs.

L'article se termine par un espoir : en utilisant ces nouvelles méthodes d'entraînement, nous pouvons construire des IA qui comprennent vraiment le monde visuel, et pas seulement les mots qui l'accompagnent.