ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Each language version is independently generated for its own context, not a direct translation.

1. 왜 AI 는 여러 장의 사진을 보면 길을 잃을까? (현재의 문제)

지금까지의 AI 는 사진을 볼 때 **"한 장씩 따로따로 보는 습관"**이 있었습니다.

비유: 친구가 당신에게 "내 집 거실 사진 2 장을 보여줄 테니, 피아노가 북쪽을 향했을 때 액자가 어디에 있는지 알려줘"라고 했다고 상상해 보세요.
- 기존 AI 의 실수: AI 는 첫 번째 사진을 보고 "피아노 있네, 창문 있네"라고 말하고, 두 번째 사진을 보고 "벽에 액자 있네"라고 말합니다. 하지만 두 사진을 연결해서 "아! 카메라가 왼쪽으로 돌아갔구나! 그래서 액자가 피아노의 오른쪽 (동쪽) 에 보이는구나!"라고 생각하지 못합니다.
- 결과: AI 는 각 사진은 잘 설명하지만, 두 사진을 합쳐서 3D 공간감을 만들지 못해 엉뚱한 답을 내놓습니다. 마치 지도 없이 두 장의 나침반만 보고 방향을 재는 것과 같습니다.

2. ViewFusion 의 해결책: "생각 twice(두 번) 하기"

이 논문은 AI 에게 **"답을 바로 말하기 전에, 먼저 공간 감각을 정리하라"**는 두 단계의 훈련을 시켰습니다.

1 단계: "공간 지도 그리기" (Spatial Pre-thinking)

AI 는 질문에 답하기 전에, 먼저 **"두 사진 사이의 관계"**를 분석합니다.

비유: 마치 탐정이 사건 현장의 두 장의 사진을 볼 때, "아! 이 사진은 왼쪽에서 찍은 거고, 저 사진은 오른쪽에서 찍은 거야. 카메라가 이렇게 움직였구나!"라고 공간 지도를 머릿속에 먼저 그리는 과정입니다.
AI 는 이 단계에서 "카메라가 어떻게 움직였는지", "어떤 물체가 가려졌는지"를 명확히 정리합니다.

2 단계: "질문에 답하기" (Question Answering)

이제 공간 지도가 완성되었으니, 그 위에 질문을 던져 답을 찾습니다.

비유: "아, 지도를 보니 카메라가 왼쪽으로 45 도 돌아갔네. 그럼 피아노를 기준으로 액자는 동쪽이겠구나!"라고 정확한 답을 도출합니다.

3. 어떻게 가르쳤을까? (훈련 방법)

연구팀은 AI 를 가르칠 때 두 가지 방법을 섞어 썼습니다.

모범 답안 보여주기 (SFT): AI 가 "먼저 공간 관계를 설명하고, 그다음에 답을 쓰는" 정확한 패턴을 수만 번 반복해서 가르쳤습니다.
게임처럼 훈련하기 (RL/GRPO): AI 가 스스로 답을 만들어낼 때, 정답을 맞췄을 때 점수를 주고, 형식 (공간 설명 → 답) 을 지키지 않으면 감점하는 방식으로 훈련시켰습니다.
- 비유: 마치 AI 를 "공간 추리 게임"에 참여시켜, 규칙을 지키고 정답을 맞출 때만 보상을 주는 방식으로 습관을 들인 것입니다.

4. 결과는 어땠을까?

성적표: 기존 AI 모델 (Qwen3-VL 등) 보다 정확도가 약 5.3% 향상되었습니다. 특히 "여러 각도의 사진을 연결해야만 풀 수 있는 어려운 문제"에서 실력이 크게 늘었습니다.
핵심 발견: 단순히 "더 많이 생각하게 (긴 문장) 만드는 것"만으로는 부족했습니다. **"공간 관계를 먼저 정리하는 습관"**을 강제로 들여야만 AI 가 진짜 3D 공간 감각을 갖게 된다는 것을 증명했습니다.

5. 한 줄 요약

"AI 가 여러 장의 사진을 보고도 길을 잃지 않게 하려면, 답을 말하기 전에 먼저 '카메라가 어떻게 움직였는지'를 머릿속 지도로 그려보게 해야 한다."

이 연구는 AI 가 단순히 사진을 나열하는 것을 넘어, 진짜 3D 공간에서 사고하는 능력을 키우는 중요한 첫걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현재의 비전 - 언어 모델 (VLM) 은 단일 이미지 기반의 작업에서는 뛰어난 성능을 보이지만, 다중 뷰 (Multi-View) 공간 추론에서는 심각한 한계를 겪고 있습니다.

핵심 문제: 여러 각도에서 촬영된 동일한 장면에 대한 이미지들을 입력받았을 때, 모델은 각 뷰 간의 **공간적 정렬 (Cross-view Alignment)**을 제대로 수행하지 못합니다.
실패 원인: 모델들은 교차 뷰 간의 관계 (카메라 이동, 객체 대응, 가림 현상 변화 등) 를 명시적으로 추론하기보다, 단일 뷰의 단서에 의존하거나 피상적인 상관관계만 찾는 단축 학습 (Shortcut Learning) 경향을 보입니다.
기존 RL 의 한계: 강화 학습 (RL) 을 적용하더라도, 단순히 정답을 맞추도록 유도할 경우 모델은 여전히 전체 다중 뷰 컨텍스트를 통합하기 전에 답변을 도출하거나 특정 뷰에만 의존하는 비효율적인 행동을 보입니다. 이는 가시성 (Occlusion) 이나 시점 변환이 필요한 복잡한 질문에서 성능 저하를 초래합니다.

2. 제안 방법론: ViewFusion (Methodology)

저자들은 다중 뷰 공간 추론을 위해 "두 번 생각 (Think Twice)" 패러다임을 기반으로 한 ViewFusion이라는 2 단계 프레임워크를 제안합니다. 이 프레임워크는 교차 뷰 정렬을 질문 답변의 부수적 산물이 아닌, 의도적인 첫 번째 단계로 분리합니다.

A. 2 단계 추론 프로세스

1 단계: 공간적 사전 사고 (Spatial Pre-thinking)
- 모델은 질문을 해결하기 전에 명시적으로 <spatial_thinking> 태그를 사용하여 뷰 간의 관계를 추론합니다.
- 수행 내용: 시점 변화 (Viewpoint transformation), 객체 대응 (Object correspondence), 가림 현상 (Occlusion) 분석, 공통 시각적 단서 (Shared cues) 연결.
- 목적: 단순한 이미지 재기술이 아닌, 일관된 **중간 작업 공간 (Intermediate Workspace)**을 구축하여 3D 장면 구조를 이해합니다.
2 단계: 질문 기반 추론 (Question-driven Reasoning)
- 1 단계에서 구축된 공간적 맥락 (Workspace) 을 기반으로 <thinking>을 수행하여 최종 답변 <answer>를 도출합니다.

B. 훈련 전략 (Training Strategy)

ViewFusion 은 두 단계의 훈련 파이프라인을 따릅니다.

지도 미세 조정 (SFT):
- 합성된 추론 데이터 (18K 개) 를 사용하여 모델을 초기화합니다.
- 데이터는 <spatial_thinking>, <thinking>, <answer> 구조로 재구성된 정답 추론 경로를 포함하며, 모델이 의도된 2 단계 프로토콜을 따르도록 학습시킵니다.
강화 학습 (RL) - GRPO 적용:
- 그룹 상대적 정책 최적화 (Group Relative Policy Optimization, GRPO) 를 적용하여 모델의 정답률과 행동 안정성을 동시에 향상시킵니다.
- 복합 보상 함수 (Composite Reward):
  - 정답 보상 ( $r_{ans}$ ): 다중 선택지 정답 여부.
  - 형식 준수 보상 ( $r_{fmt}$ ): <spatial_thinking>, <thinking>, <answer> 태그의 순서와 형식이 엄격하게 준수되었는지 확인 (단축 학습 방지).
  - 길이 정규화 보상 ( $r_{len}$ ): 과도한 간결함이나 불필요한 장황함을 방지하는 적정 길이 유지.

3. 주요 기여 (Key Contributions)

실패 모드 진단: 현재 MLLM 과 RL 기반 모델들이 다중 뷰 입력에서 교차 뷰 공간 정보를 정렬하지 못하고 단축 학습에 의존한다는 핵심 실패 모드를 규명했습니다.
ViewFusion 프레임워크 도입: 교차 뷰 공간 사전 사고와 문제 해결을 명시적으로 분리하는 2 단계 "Think Twice" 패러다임을 제안했습니다.
효과적인 훈련 레시피: 합성된 구조적 추론 감독 (SFT) 과 GRPO 기반 강화 학습을 결합하여, 모델이 의도된 2 단계 행동을 안정적으로 유지하면서도 정답률을 높이는 방법을 제시했습니다.
실험적 검증: MMSI-Bench 등 다양한 벤치마크에서 기존 모델 대비 일관된 성능 향상을 입증하고, 각 구성 요소의 기여도를 분석했습니다.

4. 실험 결과 (Results)

저자들은 MMSI-Bench, MindCube, ViewSpatial-Bench 세 가지 다중 뷰 벤치마크에서 실험을 수행했습니다.

성능 향상:
- MMSI-Bench: Qwen3-VL-4B-Instruct 대비 정확도가 5.3% 향상 (30.1% → 35.4%). 특히 교차 뷰 정렬이 필요한 사례에서 가장 큰 개선을 보였습니다.
- MindCube: Qwen3-VL-4B-Instruct 대비 40.0%p 이상 향상 (37.0% → 77.0%). 제한된 뷰에서 일관된 정신적 모델 (Mental Model) 을 구축하는 능력이 크게 개선되었습니다.
- 전체 평균: 오픈 소스 4B 규모 모델 중 가장 높은 평균 정확도를 기록했습니다.
비교 분석:
- 단순히 추론 시간을 늘리거나 고품질 CoT 데이터로 학습한 Qwen3-VL-4B-Thinking(29.0%) 보다 ViewFusion(35.4%) 이 더 우수한 성능을 보였습니다. 이는 단순한 심의 (Deliberation) 증가가 아니라, 명시적인 교차 뷰 공간 일관성 확보가 핵심임을 시사합니다.
Ablation Study:
- 구조화된 2 단계 출력 대신 자유 형식 추론을 사용하면 성능이 하락 (35.4% → 33.4%) 하여, 명시적인 사전 사고 단계의 중요성을 입증했습니다.
- GRPO 를 제거하면 성능이 크게 저하되어, RL 최적화가 다중 뷰 입력 하에서 정답률 향상에 필수적임을 확인했습니다.

5. 의의 및 결론 (Significance)

ViewFusion 은 다중 뷰 공간 추론 분야에서 다음과 같은 중요한 의의를 가집니다:

패러다임 전환: 모델이 "보면서 해결 (Solve while observing)"하는 방식에서 벗어나, **"먼저 정렬하고 그 후 해결 (Pre-align then solve)"**하는 명시적인 추론 프로세스를 강제함으로써 공간적 일관성을 확보했습니다.
RL 의 효과적 활용: 단순히 정답만 보상하는 것이 아니라, **추론 구조 (Format)**와 **공간적 논리 (Spatial Logic)**를 함께 보상함으로써 RL 이 모델의 추론 경로를 올바르게 유도할 수 있음을 보였습니다.
향후 방향: 이 연구는 MLLM 이 복잡한 3D 공간 이해를 위해 필요한 "구조화된 공간 사고 (Structured Spatial Thinking)"의 중요성을 강조하며, 확장 가능한 교차 뷰 정렬 목표와 더 넓은 공간 일반화를 위한 기반을 마련했습니다.

요약하자면, ViewFusion 은 다중 뷰 입력에서 발생하는 공간적 오해를 해결하기 위해, 모델이 이미지 간의 관계를 명시적으로 정렬하는 '사전 사고' 단계를 강제함으로써 기존 모델들의 단축 학습 문제를 해결하고 공간 추론 능력을 획기적으로 향상시킨 방법론입니다.