Geometry-Aware Rotary Position Embedding for Consistent Video World Model

이 논문은 3D 일관성을 해치는 기존 화면 공간 위치 임베딩의 한계를 극복하기 위해 카메라 광선 방향을 주입한 'ViewRope'와 기하학적 단서를 활용한 희소 어텐션 기법을 제안하여, 장거리 이동 시에도 장면의 구조적 안정성을 유지하는 비디오 월드 모델을 구축했습니다.

Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 만들 때, 카메라가 돌아와도 같은 장면을 기억하게 하는 새로운 기술"**에 대해 설명합니다.

기존의 AI 비디오 생성 모델들은 카메라가 한 바퀴 돌아서 원래 위치로 돌아오면, 방금 전에 봤던 풍경이 사라지거나 엉뚱한 물건이 생기는 (할루시네이션) 문제가 있었습니다. 마치 사람이 눈을 감았다가 다시 떴을 때, 방금 전에 보던 책상 위에 있던 컵이 갑자기 사라지고 꽃병이 있는 것처럼 말이죠.

이 논문은 이를 해결하기 위해 **'뷰로프 (ViewRope)'**라는 기술을 제안했습니다.


🎬 핵심 아이디어: "위치"가 아니라 "시선"으로 기억하기

기존 AI 들은 비디오의 각 프레임 (화면) 을 **2 차원 스크린의 좌표 (x, y)**로만 기억했습니다.

  • 기존 방식의 문제점: 카메라가 돌면 화면 속 사물의 위치가 완전히 바뀝니다. 예를 들어, 왼쪽 구석에 있던 나무가 카메라가 180 도 돌아오면 오른쪽 구석으로 이동합니다. AI 는 "왼쪽 구석의 나무"와 "오른쪽 구석의 나무"가 같은 나무라는 것을 모릅니다. 그래서 다시 돌아왔을 때, "아, 오른쪽에 새로운 나무가 있구나!"라고 착각하고 엉뚱한 나무를 그려냅니다.

이 논문이 제안한 해결책 (ViewRope):
AI 에게 화면의 좌표 대신 **"카메라가 바라보는 방향 (시선)"**을 기억하게 했습니다.

  • 비유: 우리가 길을 걸을 때, "내 왼쪽 3 미터에 있는 나무"가 아니라 **"내가 정면으로 바라보는 저 나무"**라고 기억하는 것과 같습니다.
  • 카메라가 돌아서 다시 원래 방향을 바라보면, AI 는 "아, 이 시선 방향의 나무는 방금 전에 봤던 그 나무구나!"라고 정확히 인식합니다.

이를 위해 연구진은 카메라의 시선 방향을 AI 의 '주의 (Attention)' 메커니즘에 직접 주입했습니다. 마치 AI 가 장난감 상자에 있는 모든 사물을 '위치'가 아니라 '어디를 보고 있는지'로 분류해서 정리해두는 것과 같습니다.


⚡ 부가 기술: "필요한 것만 보는" 스마트 메모리

비디오가 길어지면 AI 가 기억해야 할 과거 장면이 너무 많아져서 계산이 느려집니다.

  • 기존 방식: 과거의 모든 장면을 다 기억하려고 노력하다가 (모든 프레임을 다 봄), 속도가 느려집니다.
  • 이 논문의 방식 (기하학적 희소 주의): "지금 카메라가 바라보는 방향과 겹치는 (보이는) 과거 장면만 골라 봅니다."
    • 비유: 도서관에서 책을 찾을 때, 책 전체를 다 뒤지는 게 아니라 **"내가 찾고 있는 주제와 관련된 책장"**만 빠르게 찾아갑니다.
    • 이렇게 하면 계산 속도는 빨라지면서도, 중요한 장면 (과거에 봤던 같은 장소) 은 놓치지 않고 정확히 기억할 수 있습니다.

🧪 실험 결과: "원래대로 돌아오기" 테스트

연구진은 ViewBench라는 새로운 테스트 도구를 만들었습니다.

  • 테스트 내용: 카메라를 한 바퀴 돌린 뒤 (회전 away), 다시 원래 위치로 돌아오게 (회전 back) 합니다.
  • 결과:
    • 기존 모델들: 돌아왔을 때 건물의 모양이 달라지거나, 나무가 사라지는 등 기하학적 오류가 발생했습니다.
    • 이 모델 (ViewRope): 돌아왔을 때 원래의 풍경과 거의 똑같이 재현했습니다. 특히 카메라가 많이 돌아갈수록 (90 도, 180 도 회전) 기존 모델들은 완전히 망가졌지만, 이 모델은 여전히 일관된 장면을 유지했습니다.

📝 한 줄 요약

"기존 AI 는 화면 속 '위치'만 기억해서 카메라가 돌아오면 혼란스러워했지만, 이 새로운 기술은 '시선 방향'을 기억하게 해서 카메라가 돌아와도 같은 장면을 완벽하게 복원합니다."

이 기술은 VR(가상현실), 게임, 교육용 콘텐츠 등에서 사용자가 자유롭게 돌아다니며 장면을 경험할 때, 현실처럼 일관된 세계를 만들어주는 데 큰 역할을 할 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →