Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem três super-heróis da inteligência artificial: o Claude, o ChatGPT e o Gemini. Todos eles são famosos por "ver" e entender imagens, como se tivessem olhos e cérebro humanos.

Os pesquisadores deste artigo decidiram fazer um teste simples para ver se esses heróis realmente entendem o que veem, ou se eles estão apenas "chutando" com base em palavras.

O Experimento: O Jogo dos Quadrados

Eles criaram 15 quadros (como uma folha de papel quadriculado de 15x15). Em cada quadro, alguns quadradinhos estavam preenchidos de preto e outros brancos.

Eles mostraram esses quadros para os robôs de duas formas diferentes:

Forma de Texto: Os quadradinhos preenchidos eram representados pelo símbolo de "cerol" (#) e os vazios por um ponto (.).
- Exemplo: .#.#.
Forma de Quadrado Puro: Os quadradinhos eram apenas blocos pretos e brancos, sem linhas, sem símbolos, apenas formas geométricas.

A pergunta era: "Onde estão os quadradinhos pretos?"

O Resultado Surpreendente: O "Efeito Leitura"

Aqui está a mágica (e o problema):

Quando eram símbolos de texto (#): Os robôs foram incrivelmente bons! O Claude e o ChatGPT acertaram cerca de 91% dos quadradinhos. Eles conseguiam dizer exatamente onde cada # estava.
Quando eram apenas quadrados pretos: A mágica desapareceu. A performance deles desabou para cerca de 60% a 70% de acerto, e a precisão de encontrar os quadrados caiu drasticamente (de 84% para menos de 40%).

A Grande Revelação:
O que é mais importante: A imagem era exatamente a mesma para o "olho" do computador. Não importa se era um símbolo # ou um quadrado preto; para a câmera digital, ambos são apenas pixels pretos e brancos.

Por que a diferença?

A Analogia do "Leitor de QR Code" vs. "O Observador"

Imagine que esses robôs têm dois modos de pensar:

O Modo "Leitor de Código" (OCR): Quando eles veem um símbolo que parece uma letra ou um número (como o #), eles ativam um "super-poder" de leitura. É como se dissessem: "Ah, isso é um caractere! Eu sei exatamente onde cada caractere está no meu alfabeto mental." Eles usam a lógica de leitura de texto para mapear a posição. É como ler um livro: você sabe que a letra "A" vem antes da "B".
O Modo "Observador Visual": Quando eles veem apenas um quadrado preto sem nenhum símbolo, eles tentam usar a visão pura. É como tentar contar quantas gotas de chuva caíram em um telhado apenas olhando de longe, sem contar uma por uma. Eles conseguem ver que "há uma mancha escura ali", mas perdem a precisão de dizer exatamente qual gota é qual.

A conclusão do artigo é: Os robôs atuais não são tão bons em "ver" formas geométricas puras quanto achamos. Eles dependem quase que totalmente de transformar o que veem em texto para conseguir entender a posição das coisas. Se não há "texto" para ler, eles ficam perdidos.

Como cada robô falhou (Os "Estilos de Erro")

Cada um teve um jeito diferente de se confundir quando os quadrados não tinham letras:

O Claude: Ficou "poupador". Ele via os quadrados, mas achava que havia menos do que realmente existia. Ele contava errado e perdia a localização exata.
O ChatGPT: Ficou "alucinado". Ele via uma mancha preta e imaginava que havia muitos quadrados ali, criando uma mancha borrada e exagerada.
O Gemini: Ficou "criativo demais". Quando a imagem ficava muito cheia, ele parava de olhar e inventava padrões geométricos que não existiam (como desenhar um "X" ou um "L" no lugar do que estava na imagem).

O Teste de "Colar Etiquetas"

Para provar a teoria, os pesquisadores fizeram um teste extra: eles pegaram os quadrados pretos e colocaram um pequeno número "1" branco dentro de cada um.

Resultado: O Claude e o Gemini voltaram a ser gênios! Assim que viram o "1" (texto), a leitura ativou e eles acertaram tudo de novo.
O ChatGPT: Ficou pior! O texto dentro do quadrado pareceu confundi-lo, como se ele não soubesse se deveria "ler" o número ou "ver" o quadrado.

Por que isso importa?

Isso nos diz que, embora esses robôs pareçam ver o mundo como nós, eles na verdade "leem" o mundo.

Se você usar um robô para ler um documento médico cheio de texto, ele será ótimo.
Mas se você pedir para ele analisar uma imagem de raio-x, um mapa de calor ou um circuito eletrônico (onde não há letras, apenas formas), ele pode falhar feio, porque ele não tem um "olho" visual puro e preciso; ele precisa transformar tudo em palavras para entender.

Resumo em uma frase:
Os robôs de IA atuais são ótimos em ler imagens, mas ainda são muito ruins em ver formas puras, a menos que você coloque letras dentro delas para ajudá-los a entender.

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

O Experimento: O Jogo dos Quadrados

O Resultado Surpreendente: O "Efeito Leitura"

A Analogia do "Leitor de QR Code" vs. "O Observador"

Como cada robô falhou (Os "Estilos de Erro")

O Teste de "Colar Etiquetas"

Por que isso importa?

Título: Os Modelos Visão-Linguagem Conseguem Ver Quadrados?

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

A. A Lacuna Texto vs. Quadrados

B. Efeitos de Densidade e Modos de Falha

C. Ablação de Tipo de Símbolo

5. Significado e Implicações

Hipótese do Caminho de Reconhecimento de Texto

Implicações Práticas

Conclusão

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

O Experimento: O Jogo dos Quadrados

O Resultado Surpreendente: O "Efeito Leitura"

A Analogia do "Leitor de QR Code" vs. "O Observador"

Como cada robô falhou (Os "Estilos de Erro")

O Teste de "Colar Etiquetas"

Por que isso importa?

Título: Os Modelos Visão-Linguagem Conseguem Ver Quadrados?

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

A. A Lacuna Texto vs. Quadrados

B. Efeitos de Densidade e Modos de Falha

C. Ablação de Tipo de Símbolo

5. Significado e Implicações

Hipótese do Caminho de Reconhecimento de Texto

Implicações Práticas

Conclusão

Mais como este

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models