Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

이 논문은 이산적 그리드 기반 표현의 한계를 극복하고 연속적인 객체 경계 좌표를 활용하여 정량적 공간 계산을 가능하게 하는 'Video2Layout' 프레임워크를 제안함으로써, 멀티모달 대규모 언어 모델의 공간 추론 성능을 향상시키는 방법을 제시합니다.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 비디오를 보고 '정확한 지도'를 그리는 AI: Video2Layout

이 논문은 **"비디오를 보고 물체의 정확한 위치와 거리를 계산할 수 있는 AI"**를 개발한 연구입니다. 기존의 AI 들이 공간 감각을 익히는 방식의 한계를 깨고, 더 정교한 방법을 제시했죠.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: "그림으로만 대충 그린 지도"의 한계

기존의 AI 는 공간을 이해할 때 **'격자 지도 (Grid Map)'**를 사용했습니다.

  • 비유: imagine you are drawing a map on a chessboard.
    • "소파가 3 칸, 4 칸에 있어."
    • "냉장고는 5 칸, 2 칸에 있어."
    • 한계: 체스판은 정사각형이라서, 소파가 3 칸의 구석에 있든 4 칸의 모서리에 있든 AI 는 정확히 알 수 없습니다. "약 3 칸 정도"라고 대충 말해야 하죠. 거리가 정확히 몇 미터인지, 방향이 정확히 어느 쪽인지 계산하기 어렵습니다.

2. 해결책: "정밀한 GPS 좌표"를 사용하는 Video2Layout

저희가 만든 Video2Layout은 체스판 대신 정밀한 GPS 좌표를 사용합니다.

  • 비유: AI 가 비디오를 볼 때, 마치 **드론이 날아가며 각 물체의 정확한 GPS 좌표 (x, y, z)**를 기록하는 것처럼 작동합니다.
    • "소파는 (3.2, 4.1) 에 있고, 길이는 1.5 미터야."
    • "냉장고는 (5.5, 2.3) 에 있고, 소파보다 2.4 미터 떨어져 있어."
    • 효과: 이제 AI 는 "대충"이 아니라 수학적으로 정확한 거리와 방향을 계산할 수 있게 됩니다.

3. 학습 방법: "가상 현실 훈련"과 "현실 실전" 두 단계

이 AI 를 가르치는 과정은 두 단계로 나뉩니다.

1 단계: 가상 현실 (시뮬레이션) 에서의 훈련 (SFT)

  • 상황: AI 를 AI2THOR라는 정교한 가상 아파트에 넣습니다.
  • 방법: 가상 세계에서는 모든 물체의 위치가 100% 정확히 알려져 있죠. AI 는 이 정확한 데이터를 보며 "비디오를 보면 이렇게 정확한 좌표를 뽑아야 해"라고 기초 체조를 합니다.
  • 비유: 비행 시뮬레이터에서 조종사 훈련을 하는 것과 같습니다. 위험 없이 정확한 조작법을 익히는 거죠.

2 단계: 현실 세계에서의 강화 훈련 (RL)

  • 상황: 이제 AI 를 **실제 아파트 (실제 비디오)**로 보냅니다.
  • 문제: 가상 세계와 실제 세계는 다릅니다. 조명도 다르고, 물체 모양도 조금씩 다르죠.
  • 방법: GRPO라는 알고리즘을 써서 AI 가 실수하면 "아, 이건 틀렸네"라고 스스로 배우게 합니다.
  • 비유: 시뮬레이터 훈련을 끝낸 조종사가 이제 실제 하늘을 날아보며 난기류를 극복하고 실전 감각을 익히는 과정입니다.

4. 어떻게 생각할까? (구조화된 사고)

이 AI 는 단순히 "소파가 왼쪽에 있어"라고 말하지 않습니다.

  1. 지도 그리기 (Map): 먼저 비디오 속 물체들을 좌표로 변환해 지도를 그립니다.
  2. 계산하기 (Think): "소파와 TV 사이의 거리를 피타고라스 정리로 계산해 보자"라고 수학 문제를 풀듯이 생각합니다.
  3. 답변하기 (Answer): 계산 결과를 바탕으로 "소파는 TV 왼쪽 2.3 미터 뒤에 있습니다"라고 정확히 답합니다.

5. 왜 중요한가요? (결과)

  • 기존 AI vs 우리 AI: 기존 AI 는 공간 추론 문제에서 평균 44% 정도만 맞췄지만, 우리의 V2LO-7B47% 이상을 맞췄습니다.
  • 특히 뛰어난 점:
    • 방향 감각: "소파를 기준으로 냉장고가 어디에 있냐?"는 질문에서 인간보다 더 잘 맞췄습니다.
    • 거리 계산: "두 물체 사이 거리가 몇 미트냐?"는 질문에서도 훨씬 정확해졌습니다.

💡 한 줄 요약

"기존 AI 가 체스판 위에 대충 물체를 놓았다면, 우리는 AI 에게 드론처럼 정밀한 GPS 좌표를 부여해서, 비디오 속 공간을 수학적으로 완벽하게 재구성하게 만들었습니다."

이 기술은 로봇이 집안일을 하거나, 자율주행차가 복잡한 도로를 이해하는 데 큰 도움이 될 것입니다.