Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

이 논문은 비주얼 언어 모델이 텍스트 기호로 표현된 이진 그리드에서는 높은 정확도를 보이지만, 동일한 시각 인코더를 사용함에도 불구하고 텍스트가 없는 채워진 사각형 조건에서는 공간적 위치 파악 능력이 극적으로 저하됨을 실험을 통해 규명했습니다.

Yuval Levental

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 실험의 핵심: "글자로 된 지도" vs "검은색 점"

연구진은 15x15 크기의 격자 (보드) 를 만들었습니다. 각 칸은 **'검은색 (채워짐)'**이거나 **'흰색 (비어있음)'**입니다.
이제 AI 에게 이 보드의 모양을 그대로 말로 옮겨달라고 (전사해달라고) 요청했습니다.

하지만 보드를 보여주는 방식은 두 가지로 나눴습니다.

  1. 글자 버전: 검은 칸은 # 기호로, 흰 칸은 . 점으로 표시했습니다. (예: .#.#.)
  2. 그림 버전: 검은 칸은 실제 검은색 사각형으로, 흰 칸은 흰색으로 표시했습니다. (격자 선 없이 그냥 검은색 덩어리들)

중요한 점: AI 는 이 두 가지 모두를 '사진'으로만 봅니다. 글자라고 해서 미리 입력된 텍스트가 있는 게 아니라, 모두 카메라로 찍은 이미지처럼 처리됩니다.

📉 놀라운 결과: "글자"는 잘 보는데, "그림"은 망가집니다

결과가 매우 극명하게 갈렸습니다.

  • 글자 버전 (#.): AI 들은 거의 완벽하게 정답을 맞췄습니다. (정확도 90% 이상)
    • 비유: 마치 **"주소가 적힌 우편물"**을 받는 것과 같습니다. AI 는 "여기 3 번, 여기 5 번"이라고 적힌 글자를 읽어서 위치를 정확히 파악합니다.
  • 그림 버전 (검은 사각형): AI 들은 완전히 혼란에 빠졌습니다. (정확도 60~70% 로 떨어지고, 중요한 위치 파악 능력은 30% 대로 추락)
    • 비유: 마치 **"주소가 적히지 않은 검은색 상자"**를 받는 것과 같습니다. AI 는 "어디에 검은색이 있나?"라고 눈으로 쫓아다니지만, 정확한 위치를 기억하지 못해 엉뚱한 곳에 상자를 놓아버립니다.

🤖 세 가지 AI 의 실수 패턴 (각자 다른 실수를 합니다)

세 가지 유명 AI(Claude, ChatGPT, Gemini) 가 모두 같은 실수를 했지만, 그 방식은 제각기 달랐습니다.

  1. Claude (클로드): 과소평가하는 성실한 학생.
    • 검은 칸이 60 개 있는데, 45 개만 찾습니다. "아마 여기쯤 있겠지?"라고 대충 추정해서 위치를 틀리게 적어냅니다.
  2. ChatGPT: 과대평가하는 상상력 넘치는 학생.
    • 검은 칸이 80 개 있는데, 130 개나 찾아냅니다. 실제 검은 덩어리 주변에 없는 검은 칸까지 "거기 있을 거야!"라고 상상해서 만들어냅니다.
  3. Gemini (제미니): 패턴을 외우는 기계.
    • 검은 칸이 너무 많으면, 실제 그림을 보지 않고 "아, 이건 L 자 모양이구나!"라고 미리 외운 도형을 만들어냅니다. 입력된 그림과 전혀 상관없는 기하학적 패턴을 그려냅니다.

🔍 왜 이런 일이 일어날까요? (핵심 가설)

연구진은 이 현상을 **"AI 의 두 가지 뇌"**로 설명합니다.

  1. 글자 읽기 뇌 (OCR): AI 는 이미지 속의 글자나 기호를 보면, 마치 스캐너처럼 "이건 '#' 기호야, 3 번째 줄 4 번째 칸에 있어"라고 정확한 좌표를 기억하는 강력한 능력을 발휘합니다.
  2. 그림 보는 뇌 (시각): 하지만 순수한 검은색 그림만 보면, AI 는 "오른쪽 위쪽에 검은 덩어리가 있네"라고 대략적인 느낌만 파악할 뿐, 정확한 좌표를 기억하는 능력은 매우 약합니다.

즉, AI 는 그림을 볼 때, 무의식적으로 "이걸 글자로 바꿔서 읽어야겠다"라고 생각하는데, 검은 사각형은 글자로 바꿔줄 수 없으니 당황하는 것입니다.

💡 흥미로운 중간 실험: "그림 속에 글자를 숨기면?"

연구진은 검은 사각형 안에 아주 작은 '0'과 '1'이라는 글자를 숨겨 넣는 실험을 했습니다.

  • Claude 와 Gemini: 글자가 숨겨지자마자 순식간에 100% 정답을 맞췄습니다. (글자라는 '힌트'가 뇌를 깨운 것)
  • ChatGPT: 오히려 더 망가졌습니다. (글자와 그림이 섞이자 뇌가 충돌한 것)

이는 AI 모델마다 글자를 읽는 방식과 그림을 보는 방식이 어떻게 섞이는지 (상호작용) 가 다르다는 것을 보여줍니다.

🚀 결론: 우리가 무엇을 배웠나요?

이 실험은 **"AI 가 그림을 잘 이해한다고 해서, 공간적인 위치 파악도 완벽하다는 뜻은 아니다"**라는 사실을 알려줍니다.

  • 현재의 AI: 글자나 기호가 있는 그림은 천재처럼 잘 보지만, 순수한 도형이나 패턴은 초보처럼 못 봅니다.
  • 미래의 과제: 의료 영상 (종양 찾기), 자율주행 (장애물 위치 파악) 등 글자가 없는 그림을 정밀하게 분석해야 하는 분야에서는, 현재 AI 가 생각보다 훨씬 더 많은 실수를 할 수 있다는 경고입니다.

한 줄 요약:

"AI 는 '글자'가 적힌 지도는 완벽하게 읽지만, '그림'으로만 된 지도는 길을 잃고 헤매는 존재입니다. 우리는 AI 가 그림을 제대로 '보'는 법을 가르쳐야 합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →