CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Le papier présente CodePercept, une approche qui améliore la perception visuelle des modèles de langage multimodaux dans les domaines STEM en utilisant l'exécution de code comme médium perceptuel, soutenue par un nouveau jeu de données ICC-1M et un benchmark d'évaluation STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche CodePercept, conçue pour être comprise par tout le monde, même sans bagage technique.

🧠 Le Problème : Pourquoi les IA échouent-elles en sciences ?

Imaginez que vous essayez de résoudre un problème de géométrie complexe ou de physique. Vous avez un élève très intelligent (l'IA) qui connaît parfaitement les formules mathématiques et la logique. Pourtant, il échoue. Pourquoi ?

L'équipe de recherche s'est posée une question fondamentale : Est-ce que l'élève est mauvais en mathématiques (raisonnement), ou est-ce qu'il est simplement myope et ne voit pas bien les détails de l'image (perception) ?

Pour le savoir, ils ont fait une expérience étrange : ils ont pris un cerveau très puissant (un gros modèle d'IA) et l'ont forcé à utiliser des "yeux" plus petits, puis l'inverse.
Le résultat surprenant ? Augmenter la puissance de "raisonnement" n'aide presque pas. En revanche, améliorer la capacité à voir et décrire précisément l'image fait exploser les performances.

La leçon : Le vrai problème n'est pas que l'IA ne sait pas penser, c'est qu'elle ne sait pas bien voir.


🔍 La Solution : L'IA qui "parle" en code

Comment améliorer la vision d'une IA ? Habituellement, on lui demande de décrire une image en langage naturel (ex: "Il y a un triangle rouge avec trois points"). Mais le langage humain est flou. "Rouge" peut être clair ou foncé, "trois points" peut être n'importe où.

L'équipe a eu une idée géniale : Au lieu de demander à l'IA de décrire l'image avec des mots, demandons-lui de la reconstruire avec du code.

Imaginez que vous voulez décrire un dessin à un ami.

  • Méthode ancienne (Langage) : "Dessine un carré, un peu à gauche, avec un point dedans." (L'ami peut dessiner le carré trop grand ou le point au mauvais endroit).
  • Méthode CodePercept (Code) : "Dessine un carré de 10cm de côté, centré en (0,0), avec un point exact en (2,2)." (L'ami, s'il suit les instructions, ne peut pas se tromper).

Le code est comme un plan d'architecte infaillible. Si l'IA peut écrire le code exact pour redessiner l'image, cela prouve qu'elle a parfaitement compris chaque détail : la position, la couleur, la taille, les relations entre les objets.


🛠️ Comment ont-ils fait ? (Le "Kit de Construction")

Pour entraîner leurs IA à devenir de véritables "architectes visuels", ils ont créé deux choses principales :

1. Le Super-Entraînement (ICC-1M)

Ils ont créé une bibliothèque de 1 million d'exemples (images + descriptions + code).

  • L'astuce : Au lieu de laisser l'IA deviner la description (ce qui crée des hallucinations, comme inventer des détails qui n'existent pas), ils utilisent le code comme "vérité absolue".
  • Analogie : C'est comme si on apprenait à un peintre en lui donnant d'abord la recette exacte du tableau (le code), puis en lui demandant de décrire ce qu'il voit. Comme il connaît la recette, sa description ne contient aucune erreur.

Ils ont aussi appris à l'IA à créer des variations de problèmes (comme changer la couleur d'un triangle ou la forme d'un graphique) pour qu'elle apprenne à voir les principes sous-jacents, pas juste à mémoriser des images.

2. Le Nouveau Test (STEM2Code-Eval)

Jusqu'à présent, on testait les IA en leur donnant un problème et en regardant si la réponse finale était juste. Mais si l'IA devine la bonne réponse sans avoir bien vu l'image, on ne le sait pas.

Ils ont créé un nouveau test où l'IA doit écrire le code pour redessiner l'image.

  • Le verdict est sans appel : Si le code tourne et que l'image générée ressemble à l'originale, l'IA a bien vu. Si le code plante ou si l'image est tordue, l'IA a échoué. C'est un test objectif, comme un examen de conduite où l'on regarde si la voiture roule bien, pas seulement si le conducteur a répondu "oui" à la question "sais-tu conduire ?".

🚀 Les Résultats : Des yeux de faucon

Après cet entraînement spécial "Code-Perception", les modèles d'IA (basés sur la famille Qwen) sont devenus bien meilleurs :

  • Ils voient les détails précis (le nombre exact de points, la position exacte d'une ligne).
  • Ils font beaucoup moins d'erreurs d'interprétation.
  • Ils surpassent même des modèles beaucoup plus gros et plus puissants qui n'ont pas eu cet entraînement.

🌟 En résumé

Ce papier nous dit que pour que l'IA soit brillante en sciences et en maths, il ne faut pas seulement lui donner un cerveau plus gros. Il faut lui apprendre à voir avec une précision chirurgicale.

Et la meilleure façon de le faire ? Lui apprendre à parler le langage des machines (le code) pour décrire ce qu'elle voit. C'est comme passer d'une description vague ("il y a un truc rouge") à un plan d'ingénieur précis ("un carré de 5cm à la coordonnée X"). Grâce à cette méthode, l'IA ne se contente plus de deviner, elle comprend vraiment ce qu'elle regarde.