UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

이 논문은 시간 인식 위치 인코딩 왜곡 메커니즘을 통해 장기 기억과 정밀한 카메라 제어를 통합하고, 효율적인 듀얼 스트림 확산 트랜스포머와 포인트 클라우드 기반 렌더링을 활용한 데이터 큐레이션 전략을 도입함으로써, 장기간 장면 일관성과 고화질 비디오 생성의 정밀한 제어력을 획기적으로 향상시킨 UCM 프레임워크를 제안합니다.

Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 UCM: "기억력 좋은 카메라 감독"을 위한 새로운 기술

이 논문은 UCM이라는 새로운 인공지능 기술을 소개합니다. 이 기술은 마치 기억력이 뛰어난 영화 감독처럼, 사용자가 지정한 카메라 움직임에 따라 길고 일관된 영상을 만들어냅니다.

기존의 AI 영상 생성 기술은 두 가지 큰 문제를 겪고 있었습니다:

  1. 기억 상실: 카메라가 돌아와서 전에 찍었던 장면을 다시 보여주면, AI는 "어? 이 장면 어딨지?" 하며 내용이 달라지거나 뒤틀리는 경우가 많았습니다.
  2. 카메라 조종 불가: 사용자가 "왼쪽으로 천천히 돌면서 위로 올라가"라고 명령해도, AI가 그 명령을 정확히 따르지 못해 엉뚱한 방향으로 카메라가 움직였습니다.

UCM은 이 두 가지 문제를 해결하기 위해 세 가지 핵심 아이디어를 사용합니다.


1. 🧠 "시간을 아는 위치 기억" (Time-aware Positional Encoding Warping)

비유: "지도 위에 과거의 장소를 정확히 표시하는 나침반"

기존 AI는 영상을 만들 때 "이전 프레임"을 단순히 옆에 붙여놓고 기억했습니다. 하지만 카메라가 돌아오면 이 기억이 헷갈려서 장치가 무너졌습니다.

UCM은 과거의 장면을 3D 점 (Point Cloud) 으로 변환합니다. 그리고 카메라가 움직일 때마다, **"과거의 그 장치가 지금 내 카메라 시점에서 어디에 위치할까?"**를 수학적으로 계산해냅니다.

  • 마치 나침반처럼, 과거의 장면이 현재 카메라의 시선과 어떻게 연결되는지 정확히 알려줍니다.
  • 그래서 카메라가 돌아와서 같은 장면을 비춰도, AI는 "아! 이거 전에 봤던 그 나무구나!"라고 정확히 기억하고 똑같은 모양을 유지합니다.

2. ⚡ "효율적인 두 개의 흐름" (Efficient Dual-stream Diffusion)

비유: "명령을 내리는 지휘자와 음악을 연주하는 오케스트라"

기존 방식은 모든 정보 (과거 장면 + 새로운 영상) 를 한꺼번에 섞어서 처리하려다 보니 컴퓨터가 너무 느려졌습니다. 마치 오케스트라 전체가 동시에 노래를 부르려다 소음이 난 것처럼요.

UCM은 두 가지 흐름으로 나누어 처리합니다:

  • 흐름 1 (지휘자): 과거의 장면과 카메라 명령은 '깨끗한 데이터'로만 처리합니다. 이들은 서로만 대화하며 "어디로 가야 해?"를 정합니다.
  • 흐름 2 (연주자): 새로운 영상은 '노이즈' 상태에서 시작해 지휘자의 명령을 듣고 점점 선명해집니다.
  • 이 방식 덕분에 컴퓨터가 무리하지 않으면서도, 정교한 카메라 움직임높은 화질을 동시에 달성할 수 있습니다.

3. 🎬 "가상의 재방문" (Scalable Data Curation)

비유: "영화 세트장에서 카메라를 돌려가며 찍는 연습"

이 기술을 가르치려면 "한 장면을 여러 각도에서 다시 방문하는" 긴 영상이 많이 필요합니다. 하지만 현실에는 이런 영상이 거의 없습니다.

UCM은 가상의 연습을 고안했습니다:

  • 평범한 영상 하나를 가져와서, AI 가 3D 점 구름 (Point Cloud) 을 만들어냅니다.
  • 그 점 구름을 이용해 가상의 카메라를 돌려가며 새로운 각도의 장면을 만들어냅니다.
  • 마치 가상 현실 (VR) 게임에서 한 장면을 여러 번 돌아다니며 찍는 것처럼, AI 가 스스로 "다시 방문"하는 경험을 쌓게 합니다. 이를 통해 실제 영상 수백만 개를 학습할 수 있게 되었습니다.

🌟 요약: UCM 이 가져온 변화

기존 AI UCM (새로운 기술)
기억력: 카메라가 돌아오면 내용을 잊어버리거나 뒤틀림. 기억력: 과거 장면을 3D 로 정확히 기억하여 일관성 유지.
조종: 카메라 명령을 대충 따라감. 조종: 사용자가 지정한 경로대로 정밀하게 이동.
속도: 많은 정보를 처리하느라 느림. 속도: 두 개의 흐름으로 나누어 처리하여 빠르고 효율적.

결론적으로, UCM 은 **"기억력 좋은 카메라 감독"**을 만들어낸 기술입니다. 사용자가 원하는 대로 카메라를 움직이게 하고, 아무리 오래 영상을 만들어도 처음과 같은 장면이 흐트러지지 않도록 보장합니다. 이는 게임, 가상 현실, 자율 주행 등 다양한 분야에서 더 현실적이고 일관된 가상 세계를 만드는 데 큰 도움을 줄 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →