Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

Kunnen AI's echt "zien"? Of lezen ze alleen maar?

Stel je voor dat je een AI (een slimme computer) een foto laat zien van een raam met 225 ruitjes. Sommige ruitjes zijn zwart, andere wit. De opdracht is simpel: "Vertel me precies welke ruitjes zwart zijn."

Je zou denken dat een moderne AI, die foto's kan analyseren en zelfs complexe schilderijen beschrijft, dit makkelijk kan. Maar onderzoekers hebben ontdekt dat deze AI's een heel vreemd geheim hebben: ze kunnen de zwarte ruitjes alleen goed vinden als ze eruitzien als letters.

Hier is wat dit onderzoek (van de Universiteit van Rochester) in simpele taal uitlegt, met een paar leuke vergelijkingen.

1. Het Grote Experiment: Letters vs. Vlakken

De onderzoekers maakten 15 verschillende foto's van een 15x15 rooster. Ze deden dit op twee manieren:

Manier A (De "Leesbare" Foto): Ze vulden de zwarte vakjes met het symbool # en de witte met .. Het leek eruit als een tekstbestand, maar het was een echte foto.
Manier B (De "Echte" Foto): Ze vulden de vakjes met echte zwarte vierkantjes, zonder gridlijnen. Dit zag eruit als een abstract patroon.

Ze gaven deze foto's aan drie van 's werelds slimste AI's: Claude, ChatGPT en Gemini.

Het resultaat was schokkend:

Bij Manier A (de letters) waren de AI's bijna perfect. Ze konden bijna elk vakje correct benoemen.
Bij Manier B (de zwarte vierkantjes) vielen ze volledig in elkaar. Ze raakten de helft van de vakjes kwijt of vonden er helemaal niet waar ze waren.

2. De Vergelijking: De "Vertaler" en de "Schilder"

Waarom gebeurt dit? De onderzoekers hebben een mooie theorie:

Stel je voor dat de AI twee verschillende hersenen heeft die samenwerken:

De Vertaler (Tekstherkenning): Deze kan heel goed lezen. Als hij een # ziet, denkt hij: "Ah, dat is een teken! Ik weet precies waar dat teken staat op het papier." Hij gebruikt zijn leesvaardigheid om de ruimte te begrijpen.
De Schilder (Visueel inzicht): Deze kan kijken naar vormen, kleuren en patronen. Maar deze "schilder" is niet zo goed in het tellen van kleine details of het vinden van exacte coördinaten. Hij ziet wel "een hoopje zwart hierboven", maar niet "vakje 4 rij 3".

Het probleem:
Wanneer de AI een foto ziet met letters, schakelt hij automatisch de Vertaler in. Omdat hij zo goed is in lezen, is hij ook supergoed in het lokaliseren van die letters.
Wanneer hij een foto ziet met zwarte vierkantjes, schakelt hij de Schilder in. En die Schilder is helaas wat slordig als het gaat om precies tellen en lokaliseren.

Het is alsof je een briljante taalkundige vraagt om een kaart te tekenen. Als je hem vraagt "waar staat de stad 'Amsterdam'?", kan hij het perfect vinden (want hij kent de naam). Maar als je vraagt "waar is die specifieke boom op de foto?", kan hij het niet precies zeggen, want hij is een taalkundige, geen landmeter.

3. De Drie AI's en hun Eigen "Foutjes"

Elke AI had een eigen manier om te falen bij de zwarte vierkantjes:

Claude was te voorzichtig: hij telde te weinig zwarte vakjes (hij zag ze er gewoon niet allemaal).
ChatGPT was te enthousiast: hij zag overal zwarte vakjes waar er geen waren (hij hallucineerde patronen).
Gemini werd creatief: hij gaf helemaal niet meer om de foto, maar tekende zijn eigen standaardpatronen (zoals kruisjes of L-vormen), alsof hij droomde.

4. De "Tussenoplossing" (De Magische Teken)

Om te bewijzen dat het echt om het lezen gaat, deden ze een proefje:
Ze vulden de zwarte vierkantjes weer op, maar schreven er een klein witje 1 in en in de witte vakjes een 0.

Resultaat: Voor Claude en Gemini was dit een wonder. Plotseling konden ze weer perfect tellen! De AI's zagen de "1" en "0", schakelden hun Vertaler in, en konden de positie van de vakjes weer perfect vinden.
Uitzondering: ChatGPT werd hier juist slechter van. Voor hem was de tekst op de achtergrond te verwarrend. Dit laat zien dat elke AI een beetje anders werkt.

5. Waarom is dit belangrijk?

Dit onderzoek onthult een groot zwak punt in onze slimste computers. We denken dat ze "zien" zoals wij mensen doen. Maar in werkelijkheid vertrouwen ze enorm op tekstherkenning om de ruimte te begrijpen.

Voorbeeld: Als je een AI vraagt om een medische scan te analyseren (waar geen letters op staan, alleen vormen), of om een zelfrijdende auto te besturen die obstakels moet tellen, dan vertrouwen we misschien te veel op hun vaardigheden. Ze zijn misschien wel briljant in het lezen van borden, maar slecht in het tellen van auto's in een file als die geen tekst hebben.

Kort samengevat:
Deze AI's zijn niet zozeer "ziende" wezens, maar eerder "lezende" wezens die heel goed kunnen doen alsof ze zien. Zolang ze iets kunnen lezen, zijn ze slim. Zodra het puur visueel wordt (zonder tekst), worden ze een beetje verward. Het is alsof ze een bril dragen die alleen werkt als er tekst op staat.

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

1. Het Grote Experiment: Letters vs. Vlakken

2. De Vergelijking: De "Vertaler" en de "Schilder"

3. De Drie AI's en hun Eigen "Foutjes"

4. De "Tussenoplossing" (De Magische Teken)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernresultaten

Belangrijkste Bijdragen

Significantie en Conclusie

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

1. Het Grote Experiment: Letters vs. Vlakken

2. De Vergelijking: De "Vertaler" en de "Schilder"

3. De Drie AI's en hun Eigen "Foutjes"

4. De "Tussenoplossing" (De Magische Teken)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernresultaten

Belangrijkste Bijdragen

Significantie en Conclusie

Meer zoals dit

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models