ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

이 논문은 여러 시점 간의 공간적 관계를 명시적으로 정렬하고 추론하는 'ViewFusion'이라는 2 단계 프레임워크를 제안하여, 기존 비전 - 언어 모델의 다중 시점 추론 성능을 크게 향상시킨다는 내용을 담고 있습니다.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 AI 는 여러 장의 사진을 보면 길을 잃을까? (현재의 문제)

지금까지의 AI 는 사진을 볼 때 **"한 장씩 따로따로 보는 습관"**이 있었습니다.

  • 비유: 친구가 당신에게 "내 집 거실 사진 2 장을 보여줄 테니, 피아노가 북쪽을 향했을 때 액자가 어디에 있는지 알려줘"라고 했다고 상상해 보세요.
    • 기존 AI 의 실수: AI 는 첫 번째 사진을 보고 "피아노 있네, 창문 있네"라고 말하고, 두 번째 사진을 보고 "벽에 액자 있네"라고 말합니다. 하지만 두 사진을 연결해서 "아! 카메라가 왼쪽으로 돌아갔구나! 그래서 액자가 피아노의 오른쪽 (동쪽) 에 보이는구나!"라고 생각하지 못합니다.
    • 결과: AI 는 각 사진은 잘 설명하지만, 두 사진을 합쳐서 3D 공간감을 만들지 못해 엉뚱한 답을 내놓습니다. 마치 지도 없이 두 장의 나침반만 보고 방향을 재는 것과 같습니다.

2. ViewFusion 의 해결책: "생각 twice(두 번) 하기"

이 논문은 AI 에게 **"답을 바로 말하기 전에, 먼저 공간 감각을 정리하라"**는 두 단계의 훈련을 시켰습니다.

1 단계: "공간 지도 그리기" (Spatial Pre-thinking)

AI 는 질문에 답하기 전에, 먼저 **"두 사진 사이의 관계"**를 분석합니다.

  • 비유: 마치 탐정이 사건 현장의 두 장의 사진을 볼 때, "아! 이 사진은 왼쪽에서 찍은 거고, 저 사진은 오른쪽에서 찍은 거야. 카메라가 이렇게 움직였구나!"라고 공간 지도를 머릿속에 먼저 그리는 과정입니다.
  • AI 는 이 단계에서 "카메라가 어떻게 움직였는지", "어떤 물체가 가려졌는지"를 명확히 정리합니다.

2 단계: "질문에 답하기" (Question Answering)

이제 공간 지도가 완성되었으니, 그 위에 질문을 던져 답을 찾습니다.

  • 비유: "아, 지도를 보니 카메라가 왼쪽으로 45 도 돌아갔네. 그럼 피아노를 기준으로 액자는 동쪽이겠구나!"라고 정확한 답을 도출합니다.

3. 어떻게 가르쳤을까? (훈련 방법)

연구팀은 AI 를 가르칠 때 두 가지 방법을 섞어 썼습니다.

  1. 모범 답안 보여주기 (SFT): AI 가 "먼저 공간 관계를 설명하고, 그다음에 답을 쓰는" 정확한 패턴을 수만 번 반복해서 가르쳤습니다.
  2. 게임처럼 훈련하기 (RL/GRPO): AI 가 스스로 답을 만들어낼 때, 정답을 맞췄을 때 점수를 주고, 형식 (공간 설명 → 답) 을 지키지 않으면 감점하는 방식으로 훈련시켰습니다.
    • 비유: 마치 AI 를 "공간 추리 게임"에 참여시켜, 규칙을 지키고 정답을 맞출 때만 보상을 주는 방식으로 습관을 들인 것입니다.

4. 결과는 어땠을까?

  • 성적표: 기존 AI 모델 (Qwen3-VL 등) 보다 정확도가 약 5.3% 향상되었습니다. 특히 "여러 각도의 사진을 연결해야만 풀 수 있는 어려운 문제"에서 실력이 크게 늘었습니다.
  • 핵심 발견: 단순히 "더 많이 생각하게 (긴 문장) 만드는 것"만으로는 부족했습니다. **"공간 관계를 먼저 정리하는 습관"**을 강제로 들여야만 AI 가 진짜 3D 공간 감각을 갖게 된다는 것을 증명했습니다.

5. 한 줄 요약

"AI 가 여러 장의 사진을 보고도 길을 잃지 않게 하려면, 답을 말하기 전에 먼저 '카메라가 어떻게 움직였는지'를 머릿속 지도로 그려보게 해야 한다."

이 연구는 AI 가 단순히 사진을 나열하는 것을 넘어, 진짜 3D 공간에서 사고하는 능력을 키우는 중요한 첫걸음이 될 것입니다.