Can Vision-Language Models Solve the Shell Game?

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 왜 '컵과 공' 게임을 못 할까?

상상해 보세요. 마술사가 테이블에 세 개의 똑같은 컵을 놓고 그 중 하나에 공을 숨깁니다. 그리고 컵들을 빠르게 섞습니다. "공이 어디에 있을까요?"라고 물으면, 사람은 눈을 따라가며 "아, 저 컵이 저쪽으로 갔네, 그다음 저쪽으로 섞였네"라고 쉽게 답할 수 있습니다.

하지만 최신 AI 모델들은 이 게임에서 완전히 망칩니다.

왜 망칠까요? AI 는 마치 정지된 사진만 보는 사람 같습니다. 컵이 움직이는 과정을 쭉 따라가는 대신, "아, 저 컵은 빨간색 무늬가 있네 (혹은 투명하네)" 같은 시각적 단서를 찾아서 정답을 유추하려 합니다.
진짜 문제는? 이 논문은 AI 가 잘하는 척하는 기존 테스트들이 사실은 "공이 숨겨진 컵이 투명한 컵이었다"거나 "컵에 독특한 무늬가 있었다"는 식의 단순한 함정을 포함하고 있었다고 지적합니다. AI 는 진짜 추리 없이 그 단서만 보고 맞춘 것입니다.

저자들은 **"진짜 똑같은 컵 3 개"**만 사용한 새로운 시험지 (VET-Bench) 를 만들었습니다. 여기서 AI 들은 100% 무작위 추측 (3 분의 1 확률) 수준으로 떨어졌습니다. 즉, AI 는 움직임을 따라가는 능력이 거의 없다는 것이 증명된 셈입니다.

2. 이론적 이유: AI 의 두뇌 구조가 한계가 있다

왜 AI 는 이 간단한 게임을 못 할까요? 논문의 이론적 분석은 아주 재미있는 비유를 사용합니다.

AI 는 '한 번에 다 보는' 카메라입니다. 모든 프레임을 동시에 처리하려 하지만, 복잡한 순서 (A 가 B 와 바뀐 후, C 와 바뀐 후...) 를 추적하려면 중간 단계를 하나씩 계산해야 합니다.
마치 계산기가 복잡한 수식을 풀 때, 중간 계산 과정을 생략하고 바로 답만 내놓으려다 틀리는 것과 비슷합니다.
수학적으로 증명된 바에 따르면, 이 '사물 추적' 문제는 AI 의 기본 구조 (Transformer) 가 가진 능력의 한계를 넘어서는 매우 복잡한 문제입니다. 중간에 "계산 과정"을 거치지 않고는 답을 낼 수 없습니다.

3. 해결책: "생각의 사슬"을 눈으로 그리다 (SGCoT)

그렇다면 AI 를 어떻게 고칠까요? 저자들은 **"SGCoT (시공간 기반 사고의 사슬)"**라는 방법을 개발했습니다.

이것을 마술사의 비서에 비유해 볼까요?

기존 AI: 마술사가 컵을 섞을 때, 비서가 "어디에 있죠?"라고 물으면 바로 "왼쪽입니다!"라고 대충 맞힙니다. (틀림)
새로운 AI (SGCoT): 비서가 마술사의 움직임을 실시간으로 기록합니다.
- "0 초: 공이 중앙 컵에 있음."
- "2 초: 왼쪽 컵과 중앙 컵이 바뀜. 공은 이제 왼쪽 컵에."
- "4 초: 다시 오른쪽으로 이동..."
- 이렇게 하나하나의 '위치 기록'을 중간 단계로 만들어낸 후, 그 기록을 바탕으로 최종 답을 냅니다.

이 방법은 AI 가 직접 답을 맞추는 것이 아니라, 어떻게 그 답에 도달했는지 그 과정 (궤적) 을 먼저 말하게 만드는 것입니다. 마치 수학 문제를 풀 때, 답만 적는 게 아니라 풀이 과정을 다 적어야 점수를 받는 것과 같습니다.

4. 결과: 90% 이상의 성공률

이 방법을 적용한 결과, AI 는 VET-Bench 에서 90% 이상의 정확도를 기록했습니다. 외부 도구를 쓰지 않고, 오직 AI 스스로가 움직임을 추적하고 논리적으로 답을 찾아낸 것입니다.

요약: 이 연구가 우리에게 주는 교훈

AI 는 아직 '눈'이 부족합니다. 정지된 이미지를 보는 데는 천재지만, 움직임을 따라가는 데는 아직 인간처럼 자연스럽지 않습니다.
단순한 정답보다 '과정'이 중요합니다. AI 가 복잡한 문제를 풀려면, 중간중간 "지금 내가 어디에 있나?"라고 스스로에게 물어보며 **단계별로 생각 (Reasoning)**해야 합니다.
미래의 AI 는 '추리'를 배워야 합니다. 로봇이 세상을 이해하고 움직이려면 (예: 자율주행, 로봇 팔), 단순히 정답을 외우는 게 아니라 시간의 흐름에 따라 사물이 어떻게 변하는지 추적하는 능력이 필수적입니다.

결론적으로, 이 논문은 AI 가 "마술사의 컵과 공" 게임을 이기려면, 단순히 눈으로 보는 것을 넘어 '생각의 과정'을 시각적으로 그려내야 한다는 중요한 통찰을 주었습니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 비전-언어 모델 (VLM) 의 시각적 개체 추적 (Visual Entity Tracking) 능력의 한계를 규명하고, 이를 해결하기 위한 새로운 벤치마크 및 방법론을 제안합니다. 주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

현황: 인간의 시각적 개체 추적 능력 (예: 껍질 게임, Shell Game) 은 선천적이지만, 현재 최첨단 VLM 들은 이 작업에서 심각한 한계를 보입니다.
기존 벤치마크의 결함: 기존 비디오 벤치마크 (예: Perception Test) 는 실제 영상 데이터를 사용하는데, 많은 샘플에서 **시각적 단서 (Visual Shortcuts)**가 존재합니다. 예를 들어, 컵의 모양이 다르거나 투명하여 한 프레임만으로도 정답을 유추할 수 있는 경우가 많습니다. 이로 인해 모델이 진정한 시공간적 추적을 하지 않고도 높은 점수를 얻을 수 있어, 모델의 실제 추적 능력을 과대평가하게 됩니다.
핵심 문제: 모델이 프레임 단위의 정적 특징 (Static Frame-level Features) 에만 의존하고, 시간 흐름에 따른 개체의 표현을 유지하지 못한다는 점입니다.

2. 제안된 벤치마크: VET-Bench

목적: 시각적 단서를 완전히 배제하고 오직 **시공간적 연속성 (Spatiotemporal Continuity)**만을 통해 개체를 추적해야 하는 진단용 테스트베드입니다.
특징:
- 완전히 동일한 객체: 시각적으로 구별 불가능한 객체 (컵, 카드 등) 를 사용하여 외형적 재식별 (Re-identification) 을 불가능하게 합니다.
- 합성 데이터: 3.js 를 사용하여 조명, 질감, 카메라 뷰 등을 무작위화하여 생성된 합성 비디오를 사용합니다. 이는 데이터 누출과 과적합을 방지합니다.
- 작업 유형: '컵 게임 (Shell Game)'과 '카드 게임 (Three-Card Monte)' 두 가지 주요 작업을 포함하며, 객체 간의 위치 교환 (Swap) 이 발생하더라도 어떤 프레임에서도 정답이 직접 드러나지 않도록 설계되었습니다.

3. 이론적 분석 및 실험 결과

실험 결과: Gemini-3-Pro, Qwen3-VL 등 최첨단 상용 및 오픈소스 VLM 들을 VET-Bench 에서 평가한 결과, 모든 모델이 무작위 추측 (Random Guessing) 수준 (약 30~37%) 의 성능을 보였습니다.
- 기존 벤치마크에서 높은 점수를 받았던 모델들도 시각적 단서를 제거한 VET-Bench 에서는 성능이 급격히 하락했습니다.
- 모델들은 개체 추적 실패 시, 허위 추론 (Hallucination) 을 하거나 거시적인 설명만 제공하며 정답을 맞추지 못했습니다.
이론적 증명 (NC1-Completeness):
- 저자는 시각적 개체 추적 문제를 상태 추적 (State-tracking) 문제로 정의하고, 이를 대칭군 $S_5$ 의 단어 문제 (Word Problem) 와 연결하여 NC1-완전 (NC1-complete) 문제임을 증명했습니다.
- 이는 고정된 깊이의 트랜스포머 (Transformer) 기반 VLM 이 중간 계산 (Intermediate Computation) 없이 이 문제를 해결하는 데 본질적인 표현력 (Expressivity) 한계가 있음을 의미합니다.
- 실험적으로도 직접 정답 (Direct Answer) 만으로 학습시킨 모델은 학습이 수렴하지 않고 무작위 추측 수준에 머무르는 것을 확인했습니다.

4. 제안된 방법론: SGCoT (Spatiotemporal Grounded Chain-of-Thought)

개념: 모델이 최종 정답을 도출하기 전에, 객체의 궤적을 명시적인 중간 상태 (Intermediate States) 로 생성하도록 유도하는 방법론입니다.
구현:
- Molmo2 활용: 객체 추적에 특화된 Molmo2 모델을 기반으로 합니다.
- 학습 전략: 비디오 입력 없이 텍스트만 있는 합성 데이터로 파인튜닝을 수행합니다.
- SGCoT 포맷: 모델이 <tracks> 태그를 사용하여 시간 (Timestamp) 과 공간 좌표 (x, y) 가 명시된 객체 궤적을 생성하도록 학습시킵니다.
- 손실 함수: 궤적 생성 부분의 손실은 마스킹 (Masking) 하고, 최종 정답 부분만 감마 (Supervise) 하여 모델이 추적 능력을 유지하면서 추론을 학습하도록 합니다.
성공 요인: 거시적인 설명이 아닌, **미세한 시공간적 정렬 (Fine-grained spatiotemporal grounding)**을 통해 상태 전이를 명확하게 표현함으로써 추론의 오류를 줄였습니다.

5. 주요 성과 (Results)

성능 향상: 제안된 SGCoT 방법을 적용한 Molmo2-SGCoT 모델은 VET-Bench 에서 90% 이상의 정확도를 달성하여 최첨단 (SOTA) 성능을 기록했습니다.
의의: 외부 도구 없이도 VLM 이 비디오 껍질 게임 과제를 종단간 (End-to-End) 으로 신뢰할 수 있게 해결할 수 있음을 입증했습니다.

6. 의의 및 기여 (Significance)

진단 도구: VET-Bench 를 통해 기존 벤치마크가 숨겨왔던 VLM 의 시각적 추적 결함을 명확하게 드러냈습니다.
이론적 통찰: 시각적 개체 추적이 NC1-완전 문제임을 증명하여, 고정된 깊이 트랜스포머 아키텍처의 본질적 한계와 중간 추론 (CoT) 의 필요성을 이론적으로 뒷받침했습니다.
해결책 제시: SGCoT 를 통해 추론 과정을 시각적 추적과 결합함으로써, VLM 이 복잡한 시공간적 추론 작업을 수행할 수 있음을 실증적으로 보여주었습니다. 이는 로봇 공학 (Embodied AI) 및 게임 에이전트 등 다양한 하위 응용 분야에 중요한 기여를 할 것으로 기대됩니다.

요약하자면, 이 논문은 VLM 이 '눈으로 보는 것'을 넘어 '시간에 따라 움직이는 것을 추적하는 것'에 근본적인 한계가 있음을 발견하고, 이를 해결하기 위해 객체 궤적을 명시적으로 생성하는 SGCoT 방법을 제안하여 90% 이상의 높은 정확도를 달성한 연구입니다.

Can Vision-Language Models Solve the Shell Game?

1. 문제: AI 는 왜 '컵과 공' 게임을 못 할까?

2. 이론적 이유: AI 의 두뇌 구조가 한계가 있다

3. 해결책: "생각의 사슬"을 눈으로 그리다 (SGCoT)

4. 결과: 90% 이상의 성공률

요약: 이 연구가 우리에게 주는 교훈

1. 문제 정의 (Problem)

2. 제안된 벤치마크: VET-Bench

3. 이론적 분석 및 실험 결과

4. 제안된 방법론: SGCoT (Spatiotemporal Grounded Chain-of-Thought)

5. 주요 성과 (Results)

6. 의의 및 기여 (Significance)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models