See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

이 논문은 비전 - 언어 모델 (VLM) 의 게임 플레이 성능 향상을 위해 시각적 프레임과 상징적 표현을 결합하는 방식을 연구한 결과, 상징 추출의 정확도가 신뢰할 수 있을 때만 상징적 그라운딩이 효과적이며, 인식의 질이 향후 VLM 기반 에이전트의 핵심 병목 요소임을 밝혔습니다.

Ashish Baghel, Paras Chopra

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎮 핵심 주제: "눈 (시각) 만 믿을지, 아니면 '지도 (상징)'도 함께 볼지?"

AI 가 게임을 할 때 두 가지 방법을 고려했습니다.

  1. 눈만 믿는 방법 (Frame-only): 화면에 보이는 픽셀만 보고 "저게 공이네, 저게 배트네"라고 직접 판단합니다.
  2. 지도도 함께 보는 방법 (Symbolic Grounding): 화면을 보면서도 AI 가 "공의 좌표는 (x, y), 배트의 좌표는 (x, y)"처럼 숫자로 된 **정확한 지도 (상징 정보)**를 함께 읽습니다.

연구진은 "AI 가 이 '지도'를 스스로 만들어서 쓰면 더 잘할까? 아니면 지도가 틀리면 오히려 망할까?"를 확인했습니다.


🕵️‍♂️ 실험 내용: 세 가지 AI 선수와 네 가지 게임 방식

연구진은 Claude-4, GPT-4o, Gemini-2.5라는 세 명의 AI 선수를 데리고 아타리 게임 (퐁, 브레이크아웃, 스페이스 인베이더) 을 시켰습니다. 그리고 다음과 같은 네 가지 방식으로 게임을 시켰습니다.

  1. 눈만 믿기: 화면만 보고 플레이.
  2. 지도 + 눈 (정답): 게임 내부 데이터 (RAM) 에서 나온 완벽한 좌표를 AI 에게 줌.
  3. 지도 + 눈 (스스로): AI 가 화면을 보고 스스로 좌표를 추정해서 줌.
  4. 지도만 보기: 화면은 안 주고 좌표 숫자만 줌.

📊 주요 발견: "지도가 정확해야만 소용있다!"

이 실험에서 나온 가장 중요한 결론은 다음과 같습니다.

1. 완벽한 지도를 주면 AI 는 천재가 됩니다.

게임 내부 데이터에서 나온 **정확한 좌표 (정답)**를 AI 에게 주면, 모든 AI 가 훨씬 잘했습니다. 마치 정확한 GPS 내비게이션을 들고 운전하는 것과 같습니다. 길을 잃지 않고 목표물을 정확히 맞출 수 있죠.

2. 하지만 AI 가 스스로 만든 지도가 엉망이면, 오히려 더 못합니다.

AI 가 화면을 보고 스스로 "공이 여기 있겠지?"라고 좌표를 추정하게 했을 때, 상황이 달라졌습니다.

  • 클로드 (Claude): 이 AI 는 눈이 매우 밝아서 스스로 만든 지도도 꽤 정확했습니다. 그래서 스스로 만든 지도를 받으면 게임 실력이 급상승했습니다.
  • GPT-4o 와 지미니 (Gemini): 이 AI 들은 눈이 조금 흐릿했습니다. 스스로 만든 지도가 엉망진창이었죠. 공이 어디 있는지 잘못 알려주니, AI 는 **"아, 지도가 틀렸네!"**라고 혼란을 겪으며 오히려 게임 실력이 떨어졌습니다.

💡 비유:

  • 정확한 지도 (정답): "서울역은 동쪽 3km, 남쪽 2km 에 있습니다." → 도착 성공!
  • 잘못된 지도 (AI 의 실수): "서울역은 북쪽 10km, 서쪽 5km 에 있습니다." → 길을 잃고 헤매다가 지쳐서 포기함.

3. 지도만 주고 화면은 안 주면? (완전 실패)

화면은 안 주고 좌표 숫자만 주면 AI 는 게임을 못했습니다. 좌표만으로는 "저게 적인가? 아군인가? 장애물인가?"를 알 수 없기 때문입니다. 화면 (시각) 이 있어야 지도 (좌표) 를 제대로 해석할 수 있습니다.


🔍 왜 이런 일이 일어날까? (원인 분석)

연구진은 왜 어떤 AI 는 잘하고 어떤 AI 는 망하는지 파헤쳤습니다.

  • 해상도의 중요성: 화면을 너무 작게 (원래 아타리 크기) 주면 AI 가 물체를 못 봅니다. 화면을 **고화질 (HD)**로 늘려주면 AI 가 물체 위치를 훨씬 정확히 파악합니다.
    • 비유: 안경을 쓴 사람 (고해상도) 은 멀리 있는 글자를 읽지만, 안경을 안 쓴 사람 (저해상도) 은 글자가 뭉개져서 못 읽습니다.
  • 잡음 (Noise) 에 약함: 좌표에 아주 작은 오차 (16~20 픽셀) 만 생겨도 AI 의 실력은 뚝 떨어졌습니다.
    • 비유: 내비게이션이 "300m 전 좌회전"이라고 했을 때, "300m 전"이 아니라 "320m 전"이라고 잘못 알려주면, 운전자는 이미 지나쳐버리고 길을 잃습니다.

🚀 결론: AI 가 게임을 잘하려면?

이 논문의 결론은 매우 명확합니다.

**"AI 가 게임을 잘하려면 '상징적 지도 (좌표)'가 필수적이지만, 그 지도를 만드는 **AI 의 눈 (시각 인식 능력)이 먼저 정확해야 합니다."

  • 눈이 좋은 AI (Claude): 스스로 만든 지도를 믿고 잘합니다.
  • 눈이 흐릿한 AI (GPT-4o 등): 스스로 만든 지도를 믿으면 오히려 망합니다.
  • 미래의 과제: AI 가 게임을 잘하려면, AI 가 화면을 보고 **물체를 정확히 찾아내는 능력 (인식)**을 먼저 키워야 합니다. 그다음에야 좌표 정보를 활용해서 더 똑똑해질 수 있습니다.

한 줄 요약:

"AI 에게 정답이 있는 지도를 주면 천재가 되지만, AI 가 스스로 엉터리 지도를 만들어서 주면 바보가 됩니다. 결국 중요한 건 **정확한 눈 (인식)**입니다!"