Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ ¿Pueden los "Ojos" de la IA ver cuadrados? El gran truco de los modelos de visión

Imagina que tienes a tres superinteligentes (llamémosles Claude, ChatGPT y Gemini) que son expertos en entender imágenes. Han visto millones de fotos, mapas y gráficos. La gente asume que, si les muestras un dibujo, ellos pueden decirte exactamente dónde está cada cosa, como un detective que cuenta las huellas dactilares en una escena del crimen.

Pero los autores de este estudio les hicieron una prueba muy simple, casi como un truco de magia, y descubrieron algo sorprendente: estos "superinteligentes" tienen una ceguera muy específica.

🎭 La Prueba: El Juego de las Dos Máscaras

Los investigadores crearon 15 tableros de ajedrez (cuadrículas de 15x15). En algunos cuadros había un punto negro (lleno) y en otros blanco (vacío).

Luego, mostraron estos mismos tableros a las inteligencias artificiales de dos formas diferentes:

La Máscara de "Texto": Los cuadros llenos se dibujaron con el símbolo de almohadilla (#) y los vacíos con un punto (.). Básicamente, era un dibujo hecho con letras de máquina de escribir.
La Máscara de "Cuadrado Puro": Los cuadros llenos eran simplemente cuadrados negros sólidos, sin bordes, sin letras, solo formas geométricas.

El truco: Para la computadora, ambas imágenes son exactamente lo mismo: píxeles en una pantalla. Ninguna de las dos es "texto real" que la máquina pueda leer directamente; ambas son fotos.

📉 El Resultado: El Colapso Mágico

Aquí es donde la historia se pone interesante:

Con la Máscara de Texto (#): Las inteligencias artificiales fueron increíbles. Claude y ChatGPT acertaron el 91% de los cuadros. Gemini acertó el 84%. Parecían genios.
Con la Máscara de Cuadrado Puro (🟥): ¡Desastre total! Su capacidad de acertar cayó al 60-70% y, lo peor, su capacidad para detectar dónde estaban los cuadros llenos (una métrica llamada F1) se desplomó hasta el 30-40%.

¿La conclusión? Las inteligencias artificiales no están "viendo" la imagen con sus ojos. En su lugar, están leyendo la imagen.

🧠 La Analogía: El Traductor vs. El Pintor

Imagina que estas IAs tienen dos cerebros conectados:

El Cerebro del Traductor (OCR): Es muy bueno. Si ve una letra #, piensa: "¡Ah! Eso es un símbolo de texto. Sé exactamente dónde está porque los textos tienen reglas fijas". Cuando ven los cuadrados negros, este cerebro entra en pánico porque no reconoce la "letra".
El Cerebro del Pintor (Visión Pura): Es el que debería ver los cuadrados negros. Pero resulta que este cerebro es un poco torpe. Ve una mancha negra y piensa: "Hmm, hay algo oscuro aquí arriba a la derecha", pero no puede decirte exactamente si es el cuadro 3 o el cuadro 4.

El estudio descubrió que las IAs dependen casi totalmente del "Cerebro del Traductor". Si no pueden "leer" la imagen como si fuera texto, su capacidad para entender el espacio se desmorona.

🤖 ¿Cómo fallaron cada uno?

Cada modelo tuvo su propio estilo de error, como si fueran personajes de una comedia:

Claude (El Contador Tímido): Siempre veía menos cuadros de los que había. Decía: "Hay unos 45 cuadros", cuando en realidad había 60. Era como si le diera miedo contar todo el montón.
ChatGPT (El Soñador Exagerado): Al revés. Veía 130 cuadros cuando solo había 90. Inventaba cuadros donde no existían, como si la mancha negra se le hubiera "derramado" en la imaginación.
Gemini (El Copiante de Plantillas): Cuando los cuadros se ponían densos, Gemini se rendía y decía: "No puedo ver esto, voy a dibujar un patrón que me gusta". Empezaba a dibujar cruces o formas de "L" perfectas que no tenían nada que ver con la imagen real.

🧪 El Experimento Extra: ¿Y si ponemos letras dentro de los cuadrados?

Para confirmar su teoría, los investigadores hicieron un experimento final: pintaron los cuadrados negros, pero escribieron un pequeño "1" blanco dentro de cada uno.

Resultado: ¡Milagro! Claude y Gemini mejoraron drásticamente. De repente, volvieron a ser genios.
La excepción: A ChatGPT le fue peor. Parece que para él, mezclar letras sobre un fondo negro confundió sus dos cerebros.

💡 ¿Qué significa esto para el futuro?

Este estudio nos da una advertencia importante:

Si usas estas inteligencias artificiales para leer un documento con mucho texto, funcionarán perfecto. Pero si las usas para tareas que requieren visión pura (como contar objetos en una foto médica, analizar un mapa de calor, o ver piezas en un tablero de ajedrez sin letras), podrían fallar estrepitosamente.

Las IAs actuales son como lectores voraces que han olvidado cómo mirar. Necesitan que las cosas se parezcan a palabras para entenderlas. Mientras no aprendan a "ver" sin "leer", seguirán teniendo esta ceguera espacial.

En resumen: Las inteligencias artificiales no ven cuadrados; ven letras. Y si no hay letras, se pierden.

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ ¿Pueden los "Ojos" de la IA ver cuadrados? El gran truco de los modelos de visión

🎭 La Prueba: El Juego de las Dos Máscaras

📉 El Resultado: El Colapso Mágico

🧠 La Analogía: El Traductor vs. El Pintor

🤖 ¿Cómo fallaron cada uno?

🧪 El Experimento Extra: ¿Y si ponemos letras dentro de los cuadrados?

💡 ¿Qué significa esto para el futuro?

Título: ¿Pueden los Modelos Visión-Lenguaje ver cuadrados? La reconocimiento de texto media el razonamiento espacial en tres familias de modelos.

1. Problema

2. Metodología

3. Contribuciones Clave

4. Resultados

5. Significado e Implicaciones

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ ¿Pueden los "Ojos" de la IA ver cuadrados? El gran truco de los modelos de visión

🎭 La Prueba: El Juego de las Dos Máscaras

📉 El Resultado: El Colapso Mágico

🧠 La Analogía: El Traductor vs. El Pintor

🤖 ¿Cómo fallaron cada uno?

🧪 El Experimento Extra: ¿Y si ponemos letras dentro de los cuadrados?

💡 ¿Qué significa esto para el futuro?

Título: ¿Pueden los Modelos Visión-Lenguaje ver cuadrados? La reconocimiento de texto media el razonamiento espacial en tres familias de modelos.

1. Problema

2. Metodología

3. Contribuciones Clave

4. Resultados

5. Significado e Implicaciones

Más como este

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models