Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Test : "Les Modèles voient-ils vraiment ?"

Imaginez que vous avez trois super-intelligences artificielles (les plus avancées du moment : Claude, ChatGPT et Gemini). On leur dit : "Regardez cette image et décrivez-moi exactement ce que vous voyez."

Les chercheurs ont créé un petit jeu très simple : une grille de 15x15 cases, comme un damier géant. Certaines cases sont noires (remplies), d'autres sont blanches (vides).

Le but ? Demander à l'IA de recopier la grille, case par case.

Mais il y a un tour de magie dans l'expérience. On présente la même information de deux façons différentes :

Le mode "Lecteur de texte" : Les cases noires sont dessinées avec le symbole # et les vides avec un point .. C'est du texte, mais vu comme une image.
Le mode "Formes pures" : Les cases sont de vrais carrés noirs pleins, sans bordures, sans lettres, juste de la couleur.

📉 Le Résultat Choc : "L'IA a la vue floue"

Voici ce qui s'est passé, et c'est là que ça devient drôle (et inquiétant) :

Quand c'est du texte (# et .) : Les IA sont des champions ! Elles recopient la grille presque parfaitement. C'est comme si elles lisaient un livre.
Quand ce sont des carrés noirs : Les IA deviennent... désastreuses. Elles se trompent massivement. Elles oublient des cases, en inventent d'autres, ou dessinent des formes qui n'existent pas.

L'analogie du "Lunettes de lecture" :
Imaginez que ces IA portent des lunettes magiques qui leur permettent de voir le monde uniquement si les objets ont des étiquettes.

Si vous leur montrez un carré noir avec un petit "1" écrit dessus, elles disent : "Ah ! Un 1 ! Je sais exactement où il est !".
Si vous enlevez le "1" et ne laissez que le carré noir, elles paniquent. Pour elles, c'est comme si le carré devenait invisible ou flou. Elles ne savent plus dire où il est exactement, même si elles voient qu'il y a "quelque chose de noir".

🧠 Pourquoi font-elles ça ?

Les chercheurs pensent que ces IA ne "voient" pas vraiment les images comme nous. Elles utilisent deux chemins dans leur cerveau :

Le chemin du "Scanner de texte" (Très fort) : Quand elles voient des lettres ou des symboles, elles les transforment instantanément en mots. Comme elles sont excellentes pour comprendre les mots et leur ordre, elles savent exactement où placer chaque case. C'est comme si elles faisaient une lecture à haute voix de l'image.
Le chemin de la "Vision pure" (Très faible) : Quand il n'y a pas de texte, juste des formes, elles doivent utiliser leur "vision" brute. Or, cette vision est très mauvaise pour la géométrie précise. Elles voient une "tache noire ici", mais ne peuvent pas dire si c'est la case 4 ou la case 5.

L'analogie du "Dessinateur vs Le Lecteur" :
C'est comme si vous demandiez à un lecteur de roman (l'IA) de dessiner une carte au trésor.

Si vous lui donnez une carte avec des mots écrits ("Pierre", "Arbre", "Rocher"), il peut les lire et les placer parfaitement.
Si vous lui donnez une carte avec juste des taches d'encre (des formes), il ne sait pas quoi faire. Il va inventer des histoires ou dessiner des formes bizarres parce qu'il ne sait pas lire les "taches".

🤖 Les trois IA ne sont pas toutes pareilles

Chaque modèle a sa propre façon de rater le test quand il n'y a pas de texte :

Claude : Elle est trop prudente. Elle voit moins de cases qu'il n'y en a vraiment (elle en oublie).
ChatGPT : Elle est trop imaginative. Elle voit des cases qui n'existent pas et en invente des centaines !
Gemini : Elle perd complètement le fil. Au lieu de copier la grille, elle dessine des motifs géométriques tout faits (des croix, des L) qui ne ressemblent à rien de ce qu'on lui a montré. C'est comme si elle disait : "Je ne comprends pas ce dessin, alors je vais dessiner ce que je connais par cœur."

💡 La leçon à retenir

Ce papier nous apprend une chose fondamentale : Les IA actuelles sont de superbes lecteurs, mais de mauvais observateurs.

Elles sont excellentes pour comprendre les images si ces images contiennent du texte ou des symboles familiers. Mais si vous leur demandez de raisonner sur des formes pures, des cartes médicales complexes, ou des schémas techniques sans étiquettes, elles sont beaucoup moins fiables qu'on ne le pense.

En résumé : Ne demandez pas à une IA de "voir" une forme noire. Donnez-lui une étiquette à coller dessus, et soudain, elle verra tout parfaitement. C'est un peu comme si elles avaient besoin d'un guide pour naviguer dans le monde visuel.

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ Le Grand Test : "Les Modèles voient-ils vraiment ?"

📉 Le Résultat Choc : "L'IA a la vue floue"

🧠 Pourquoi font-elles ça ?

🤖 Les trois IA ne sont pas toutes pareilles

💡 La leçon à retenir

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ Le Grand Test : "Les Modèles voient-ils vraiment ?"

📉 Le Résultat Choc : "L'IA a la vue floue"

🧠 Pourquoi font-elles ça ?

🤖 Les trois IA ne sont pas toutes pareilles

💡 La leçon à retenir

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models