Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보고 단순히 무언가를 '찾아내는' 것과, 그 정보를 머릿속으로 '종합해서 추론하는' 것의 차이"**를 연구한 내용입니다.

쉽게 말해, **"AI 가 영화를 볼 때, 단순히 '누가 어디에 서 있는지'를 기억하는 것과, '그 영화의 전체 줄거리와 공간 구조를 이해하는 것'은 얼마나 다른가?"**를 테스트한 실험 보고서입니다.

이 내용을 일상적인 비유로 풀어서 설명해 드릴게요.

1. 연구의 배경: "눈이 좋은 AI" vs "머리가 좋은 AI"

지금까지 개발된 AI(멀티모달 대형 언어 모델, MLLM) 들은 '추출형 (Extractive)' 추론에는 아주 능숙합니다.

비유: 마치 **"현미경"**처럼 작동합니다.
- "화면에서 컵이 몇 개 보이나요?"
- "소파가 TV 왼쪽에 있나요?"
- 이런 질문은 화면을 확대해서 눈에 보이는 것만 찾아내면 답이 나옵니다. AI 는 이걸 아주 잘합니다.

하지만 연구자들은 AI 가 "추상형 (Abstractive)" 추론, 즉 머릿속으로 전체 지도를 그리는 능력을 제대로 할 수 있는지 궁금해했습니다.

비유: 마치 **"탐정"**이나 **"건축가"**처럼 작동해야 합니다.
- "방을 10 개나 돌아다녔는데, 전체 집에 컵이 총 몇 개나 있을까?" (화면 한 번에 다 안 보임)
- "부엌에서 출발해서 침실을 지나 거실로 갔다면, 거실은 부엌의 어느 방향에 있지?" (화면에는 안 보임)
- 이런 질문은 AI 가 시간이 지남에 따라 본 조각난 정보들을 머릿속에 모아, 보이지 않는 전체 그림 (지도) 을 재구성해야 답을 낼 수 있습니다.

2. 새로운 시험지: "VAEX-Bench"

기존의 시험지들은 AI 가 화면에 보이는 것을 잘 찾는지만 확인했습니다. 그래서 연구자들은 **새로운 시험지 (VAEX-Bench)**를 직접 만들었습니다.

만드는 과정 (요리사 비유):
- 보통은 실제 식당 (실제 비디오) 을 찍어서 문제를 냅니다. 하지만 이 방법은 "어떤 재료가 들어갈지"를 통제하기 어렵습니다.
- 대신 연구자들은 가상의 3D 집 (시나리오) 을 처음부터 직접 설계했습니다. (SketchUp 이라는 프로그램 사용)
- "부엌에 컵 3 개, 침실에 컵 2 개"처럼 정확한 정답이 있는 상황을 인위적으로 만들고, 그 안에서 카메라가 움직이는 영상을 찍었습니다.
- 이렇게 하면 AI 가 "정답을 맞히기 위해 필요한 정보"가 정확히 어디에, 언제 나타나는지 통제할 수 있습니다.

3. 실험 결과: AI 의 약점 발견

연구진은 최신 AI 14 개 (GPT, Gemini, Claude, Qwen 등) 를 이 새로운 시험지에 투입했고, 결과는 충격적이었습니다.

현미경 (추출형) vs 지도 그리기 (추상형):
- AI 는 화면에 보이는 컵을 세는 건 잘했지만 (80~~90% 정답), 전체 집에 컵이 몇 개인지 합산하는 건 엉망이 되었습니다 (20~~30% 정답).
- 비유: AI 는 "지금 보이는 방의 문"은 잘 보지만, **"집 전체의 평면도"**를 머릿속에 그리는 데는 실패했습니다.
주요 실패 원인 3 가지:
1. 기억력 부족 (Temporal Bottleneck): "어제 본 방"과 "오늘 본 방"을 연결하지 못했습니다. 길을 잃은 관광객처럼, "내가 어디를 지나왔지?"를 잊어버립니다.
2. 공간 감각 부재 (Spatial Bottleneck): "부엌이 거실의 북쪽에 있다"는 관계를 이해하지 못해, 엉뚱한 지도를 그립니다.
3. 세세한 것 놓침 (Perceptual Bottleneck): "컵 3 개"를 "컵 2 개"로 세거나, 아예 없는 컵을 있는 것처럼 착각하기도 했습니다.

4. 결론: AI 는 아직 "현실 세계"를 이해하지 못한다

이 논문의 핵심 메시지는 다음과 같습니다.

"지금의 AI 는 화면 속의 사물을 찾는 데는 천재이지만, 시간과 공간을 넘어 정보를 종합하여 '세계'를 이해하는 데는 아직 초보입니다."

AI 가 로봇이나 자율주행차처럼 실제 세상에서 살아남으려면, 단순히 "무엇이 보이는가"를 아는 것을 넘어, "내가 어디에 있고, 주변은 어떻게 연결되어 있는가"를 머릿속 지도로 그릴 수 있어야 합니다.

이 연구는 바로 그 **'머릿속 지도 그리기 능력'**을 측정할 수 있는 첫 번째 정밀한 도구 (VAEX-Bench) 를 만들었고, 현재 AI 들이 그 능력에서 얼마나 부족한지 적나라하게 보여준 것입니다.

한 줄 요약:
"AI 가 영화를 볼 때, 단순히 '장면'을 기억하는 건 잘하지만, '줄거리와 공간'을 종합해서 전체 그림을 그리는 건 아직 서툴다는 것을 밝혀낸 연구입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: embodied agent(embodied AI) 의 발전으로 인해 시공간적 비디오 이해 (Spatiotemporal Video Understanding) 에 대한 요구가 급증하고 있습니다. 기존 멀티모달 대규모 언어 모델 (MLLM) 은 정적 이미지 인식이나 짧은 클립 인식을 넘어, 긴 시간 동안의 1 인칭 시점 (egocentric) 비디오 스트림에서 추론하는 능력을 요구받고 있습니다.
기존 연구의 한계: 현재 존재하는 비디오 벤치마크 (예: VSI-Bench, VSTI-Bench) 는 주로 '추출형 (Extractive)' 추론에 초점을 맞추고 있습니다. 즉, 비디오 프레임에 명시적으로 존재하는 객체, 행동, 관계를 식별하는 능력을 평가합니다.
핵심 문제: 그러나 실제 embodied intelligence 에 필수적인 '추상형 (Abstractive)' 시공간 추론 능력은 충분히 평가되지 않았습니다. 추상형 추론은 다음과 같은 능력을 요구합니다:
- 시간적으로 분산된 관찰 정보를 통합 (Integration).
- 흩어진 단서를 결합하여 명시적으로 보이지 않는 공간적/맥락적 구조를 유추 (Inference).
- 부분 관측 가능성 하에서 전역적인 환경 지도 (Global Map) 를 재구성.
- 현재 MLLM 이 이러한 추상형 추론을 수행할 수 있는지, 그리고 그 한계는 어디인지에 대한 체계적인 평가가 부재했습니다.

2. 방법론 (Methodology)

2.1. 추론 태스크 분류 체계 (Taxonomy)

저자는 비디오 시공간 추론을 두 가지 범주로 구분하고, 추출형 태스크를 추상형 태스크로 확장하는 1 대 1 확장 원칙을 제시했습니다 (Table 1).

카테고리	추출형 (Extractive)	추상형 (Abstractive)	확장된 능력
Chronology	등장 순서 (Appearance Order)	기억 - 행동 (Memory-Action): 여러 방을 거치며 방문한 순서를 기억하고 해당 공간의 가능한 행동 추론	프레임 국소 인식 $\rightarrow$ 기억 기반 인식
Direction	상대적 방향 (Relative Direction)	지도 방향 (Map Direction): 전역 좌표계 하에서 방 간의 상대적 방향 추론	국소 방향 $\rightarrow$ 전역 방향 인식
Distance	상대적 거리 (Relative Distance)	지도 척도 (Map Scale): 전역 메트릭 기준 하에서 방 간 거리 추정	국소 근접성 $\rightarrow$ 전역 거리 추정
Planning	경로 계획 (Route Plan)	시뮬레이션 (Simulation): 전체 이동 경로를 기반으로 바닥 평면 (Floor-plan) 구조 재구성 및 역방향 탐색	국소 경로 $\rightarrow$ 전역 시뮬레이션
Counting	객체 카운팅 (Object Counting)	전역 카운팅 (Global Counting): 모든 방에 걸쳐 관찰된 객체 총합 집계	단일 방 카운팅 $\rightarrow$ 다중 방 집계

2.2. VAEX-Bench 데이터셋 구축 (Dataset Construction)

기존의 실제 촬영된 비디오에 질문을 덧붙이는 방식 (Post-hoc annotation) 은 추상형 추론에 필요한 증거를 통제하기 어렵다는 한계가 있습니다. 이에 저자는 **질문 기반 비디오 생성 파이프라인 (Query-conditioned video construction pipeline)**을 제안했습니다.

시나리오 기반 질문 설계 (Step 1):
- 환경 유형 (단층/다층 주택, 사무실), 방 구성, 객체 배치를 먼저 정의합니다.
- 인간 어노테이터가 시나리오를 기반으로 추출형 및 추상형 질문을 설계합니다. 이때 정답이 환경 구성에 의해 명확하게 결정되도록 합니다.
환경 및 이동 경로 설계 (Step 2):
- SketchUp 에서 바닥 평면과 객체를 배치하여 3D 환경을 구축합니다.
- 추상형 태스크를 위한 제약 조건 적용:
  - 시간적 단서 분리 (Temporal Cue Separation): 증거를 멀리 떨어진 방에 배치하여 짧은 윈도우 인식만으로는 해결 불가능하게 만듭니다.
  - 공간 매핑 (Spatial Mapping): 국소적 내비게이션 단서만으로는 해결할 수 없도록 전역적 통합을 요구하는 경로를 설계합니다.
렌더링 및 비디오 녹화 (Step 3):
- Enscape 를 사용하여 포토리얼리스틱한 3D 장면을 렌더링하고, 스크립트된 1 인칭 카메라 경로로 비디오를 녹화합니다.
- 모든 비디오는 30fps, 640x480 해상도로 생성됩니다.

VAEX-Bench 통계:

10 개의 통제된 시나리오 (각각 다른 레이아웃 및 객체 분포).
각 시나리오당 30 개의 질문 (추출형 5 개, 추상형 5 개, 각 3 회 반복) 총 300 개 질문.
평균 6.7 개의 방, 73.5 개의 객체 포함.

3. 주요 실험 결과 (Results)

저자는 14 개의 최신 SOTA MLLM (GPT-5.2, Gemini-3, Claude, Qwen, InternVL 등) 을 대상으로 평가를 진행했습니다.

3.1. 추출형 vs 추상형 성능 격차

성능 급감: 모든 모델이 추출형 태스크에서는 상대적으로 좋은 성능을 보였으나, 추상형 태스크로 전환되면 성능이 현저히 떨어졌습니다.
- 인간 어노테이터는 추출형에서 88.0%, 추상형에서 81.7% 의 정확도를 보였으나, 모델들은 추상형 태스크에서 인간과 큰 격차를 보였습니다.
- 특히 **Global Counting (전역 카운팅)**과 Map Scale (지도 척도) 태스크에서 성능이 매우 낮았습니다.
모델 간 비교:
- Proprietary (상용) 모델: Gemini-3 Flash 가 추상형 태스크에서 상대적으로 가장 좋았으며, Claude 계열은 전반적으로 낮았습니다.
- Open-source 모델: Qwen3-VL-235B 와 같은 대형 오픈소스 모델도 추상형 태스크에서는 상용 모델에 비해 크게 뒤처졌습니다. 모델 크기 확장 (Scaling) 이 추상형 추론 능력의 선형적 향상을 보장하지는 않았습니다.

3.2. MCQ vs 자유형 생성 (Free-form Generation)

객관식 (MCQ) 평가보다 자유형 생성 (Free-form) 평가에서 성능이 더 크게 하락했습니다. 이는 모델이 선택지 힌트에 의존하고 있음을 시사하며, 진정한 추론 능력을 평가하기 위해서는 자유형 생성이 더 엄격한 테스트임을 보여줍니다.

3.3. 실패 원인 분석 (Bottleneck Analysis)

저자는 모델의 실패를 세 가지 주요 병목 현상으로 분류했습니다:

지각적 병목 (Perceptual): 객체 인식 오류. 특히 'Global Counting'에서 객체를 놓치는 (Omission) 실수나 중복 카운팅 (Miscounting) 이 빈번했습니다.
시간적 병목 (Temporal): 'Memory-Action' 태스크 분석 결과, 모델이 방문한 방의 순서 (Global Temporal Memory) 를 잘못 기억하는 경우가 가장 많았습니다. 경로 기억이 실패하면 해당 방의 객체 인식도 함께 실패했습니다.
공간적 병목 (Spatial): 'Map Direction', 'Simulation' 태스크에서 모델은 일관된 전역 공간 지도 (Cognitive Map) 를 재구성하는 데 실패했습니다. 바닥 평면 예측 실험 (Floor-plan prediction) 에서 mIoU 가 매우 낮았으며, 방의 상대적 위치, 크기 비율, 회전 방향 등을 왜곡하여 예측했습니다.

4. 주요 기여 (Key Contributions)

새로운 벤치마크 (VAEX-Bench) 제시: 추출형과 추상형 시공간 추론을 동시에 평가할 수 있는 최초의 통제된 벤치마크를 구축했습니다.
질문 기반 생성 파이프라인: 실제 촬영된 비디오의 한계를 극복하고, 추상형 추론에 필요한 증거를 체계적으로 통제할 수 있는 데이터 생성 프로세스를 제안했습니다.
세부적 태스크 분류 체계: 시공간 추론을 5 가지 추출형 태스크와 그에 대응하는 5 가지 추상형 태스크로 체계화하여, 모델의 구체적인 추론 능력을 진단할 수 있는 기준을 마련했습니다.
MLLM 한계에 대한 통찰: 현재 SOTA 모델들이 전역적 공간 기억, 장기적 시간 기억, 그리고 분산된 증거의 통합에 심각한 한계가 있음을 실증적으로 증명했습니다.

5. 의의 및 결론 (Significance)

embodied AI 발전의 이정표: 단순한 객체 인식을 넘어, 에이전트가 환경을 이해하고 장기적 계획을 수립하기 위해 필요한 '전역적 세계 모델 (Global World Model)' 구축 능력을 평가하는 새로운 기준을 제시했습니다.
향후 연구 방향: 현재 MLLM 이 추상형 추론에서 겪는 실패 (특히 공간 지도 재구성 및 장기 기억) 는 향후 모델 아키텍처 개선 (예: 명시적 메모리 모듈, 공간 추론 강화) 의 중요한 방향성을 제시합니다.
데이터의 한계와 의의: 수동 제작으로 인해 데이터 규모는 작지만, 대규모 수집 데이터에서는 불가능한 엄격한 통제와 정밀한 진단이 가능하여, 모델의 실패 원인을 규명하는 데 있어 고품질의 테스트베드 역할을 합니다.

이 논문은 비디오 이해 분야에서 '무엇이 보이는가 (What is visible)'를 넘어 '무엇을 추론할 수 있는가 (What can be inferred)'라는 질문을 던지며, 차세대 멀티모달 모델의 발전 방향을 제시합니다.