Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 실험의 핵심: "글자로 된 지도" vs "검은색 점"

연구진은 15x15 크기의 격자 (보드) 를 만들었습니다. 각 칸은 **'검은색 (채워짐)'**이거나 **'흰색 (비어있음)'**입니다.
이제 AI 에게 이 보드의 모양을 그대로 말로 옮겨달라고 (전사해달라고) 요청했습니다.

하지만 보드를 보여주는 방식은 두 가지로 나눴습니다.

글자 버전: 검은 칸은 # 기호로, 흰 칸은 . 점으로 표시했습니다. (예: .#.#.)
그림 버전: 검은 칸은 실제 검은색 사각형으로, 흰 칸은 흰색으로 표시했습니다. (격자 선 없이 그냥 검은색 덩어리들)

중요한 점: AI 는 이 두 가지 모두를 '사진'으로만 봅니다. 글자라고 해서 미리 입력된 텍스트가 있는 게 아니라, 모두 카메라로 찍은 이미지처럼 처리됩니다.

📉 놀라운 결과: "글자"는 잘 보는데, "그림"은 망가집니다

결과가 매우 극명하게 갈렸습니다.

글자 버전 (#과 .): AI 들은 거의 완벽하게 정답을 맞췄습니다. (정확도 90% 이상)
- 비유: 마치 **"주소가 적힌 우편물"**을 받는 것과 같습니다. AI 는 "여기 3 번, 여기 5 번"이라고 적힌 글자를 읽어서 위치를 정확히 파악합니다.
그림 버전 (검은 사각형): AI 들은 완전히 혼란에 빠졌습니다. (정확도 60~70% 로 떨어지고, 중요한 위치 파악 능력은 30% 대로 추락)
- 비유: 마치 **"주소가 적히지 않은 검은색 상자"**를 받는 것과 같습니다. AI 는 "어디에 검은색이 있나?"라고 눈으로 쫓아다니지만, 정확한 위치를 기억하지 못해 엉뚱한 곳에 상자를 놓아버립니다.

🤖 세 가지 AI 의 실수 패턴 (각자 다른 실수를 합니다)

세 가지 유명 AI(Claude, ChatGPT, Gemini) 가 모두 같은 실수를 했지만, 그 방식은 제각기 달랐습니다.

Claude (클로드): 과소평가하는 성실한 학생.
- 검은 칸이 60 개 있는데, 45 개만 찾습니다. "아마 여기쯤 있겠지?"라고 대충 추정해서 위치를 틀리게 적어냅니다.
ChatGPT: 과대평가하는 상상력 넘치는 학생.
- 검은 칸이 80 개 있는데, 130 개나 찾아냅니다. 실제 검은 덩어리 주변에 없는 검은 칸까지 "거기 있을 거야!"라고 상상해서 만들어냅니다.
Gemini (제미니): 패턴을 외우는 기계.
- 검은 칸이 너무 많으면, 실제 그림을 보지 않고 "아, 이건 L 자 모양이구나!"라고 미리 외운 도형을 만들어냅니다. 입력된 그림과 전혀 상관없는 기하학적 패턴을 그려냅니다.

🔍 왜 이런 일이 일어날까요? (핵심 가설)

연구진은 이 현상을 **"AI 의 두 가지 뇌"**로 설명합니다.

글자 읽기 뇌 (OCR): AI 는 이미지 속의 글자나 기호를 보면, 마치 스캐너처럼 "이건 '#' 기호야, 3 번째 줄 4 번째 칸에 있어"라고 정확한 좌표를 기억하는 강력한 능력을 발휘합니다.
그림 보는 뇌 (시각): 하지만 순수한 검은색 그림만 보면, AI 는 "오른쪽 위쪽에 검은 덩어리가 있네"라고 대략적인 느낌만 파악할 뿐, 정확한 좌표를 기억하는 능력은 매우 약합니다.

즉, AI 는 그림을 볼 때, 무의식적으로 "이걸 글자로 바꿔서 읽어야겠다"라고 생각하는데, 검은 사각형은 글자로 바꿔줄 수 없으니 당황하는 것입니다.

💡 흥미로운 중간 실험: "그림 속에 글자를 숨기면?"

연구진은 검은 사각형 안에 아주 작은 '0'과 '1'이라는 글자를 숨겨 넣는 실험을 했습니다.

Claude 와 Gemini: 글자가 숨겨지자마자 순식간에 100% 정답을 맞췄습니다. (글자라는 '힌트'가 뇌를 깨운 것)
ChatGPT: 오히려 더 망가졌습니다. (글자와 그림이 섞이자 뇌가 충돌한 것)

이는 AI 모델마다 글자를 읽는 방식과 그림을 보는 방식이 어떻게 섞이는지 (상호작용) 가 다르다는 것을 보여줍니다.

🚀 결론: 우리가 무엇을 배웠나요?

이 실험은 **"AI 가 그림을 잘 이해한다고 해서, 공간적인 위치 파악도 완벽하다는 뜻은 아니다"**라는 사실을 알려줍니다.

현재의 AI: 글자나 기호가 있는 그림은 천재처럼 잘 보지만, 순수한 도형이나 패턴은 초보처럼 못 봅니다.
미래의 과제: 의료 영상 (종양 찾기), 자율주행 (장애물 위치 파악) 등 글자가 없는 그림을 정밀하게 분석해야 하는 분야에서는, 현재 AI 가 생각보다 훨씬 더 많은 실수를 할 수 있다는 경고입니다.

한 줄 요약:

"AI 는 '글자'가 적힌 지도는 완벽하게 읽지만, '그림'으로만 된 지도는 길을 잃고 헤매는 존재입니다. 우리는 AI 가 그림을 제대로 '보'는 법을 가르쳐야 합니다."

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ 실험의 핵심: "글자로 된 지도" vs "검은색 점"

📉 놀라운 결과: "글자"는 잘 보는데, "그림"은 망가집니다

🤖 세 가지 AI 의 실수 패턴 (각자 다른 실수를 합니다)

🔍 왜 이런 일이 일어날까요? (핵심 가설)

💡 흥미로운 중간 실험: "그림 속에 글자를 숨기면?"

🚀 결론: 우리가 무엇을 배웠나요?

논문 요약: 비전 - 언어 모델 (VLM) 은 사각형을 볼 수 있는가?

1. 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 핵심 기여 및 결론 (Key Contributions & Conclusion)

5. 의의 (Significance)

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ 실험의 핵심: "글자로 된 지도" vs "검은색 점"

📉 놀라운 결과: "글자"는 잘 보는데, "그림"은 망가집니다

🤖 세 가지 AI 의 실수 패턴 (각자 다른 실수를 합니다)

🔍 왜 이런 일이 일어날까요? (핵심 가설)

💡 흥미로운 중간 실험: "그림 속에 글자를 숨기면?"

🚀 결론: 우리가 무엇을 배웠나요?

논문 요약: 비전 - 언어 모델 (VLM) 은 사각형을 볼 수 있는가?

1. 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 핵심 기여 및 결론 (Key Contributions & Conclusion)

5. 의의 (Significance)

유사한 논문

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models