LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

이 논문은 시야 밖의 객체 상태가 고정되는 기존 생성형 비디오 월드 모델의 한계를 해결하기 위해, 관찰되지 않는 동안에도 객체가 진화하는 지속 가능한 글로벌 상태를 모델링하는 'LiveWorld' 프레임워크와 이를 평가하는 'LiveBench' 벤치마크를 제안합니다.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 기존 AI 의 문제: "눈을 돌리면 세상이 멈춘다?"

기존의 영상 생성 AI 는 마치 눈을 감으면 세상이 멈추는 마법을 가지고 있었습니다.

  • 상황: 당신이 공원에서 개가 간식을 먹고 있는 장면을 보고 있다고 상상해 보세요.
  • 기존 AI 의 행동: 당신이 고개를 돌려 개가 보이지 않는 다른 곳을 바라보면, AI 는 "아, 개는 이제 안 보이니까 멈춰야지!"라고 생각합니다. 그래서 개가 간식을 다 먹고 배를 두드리고 있는 장면이 아니라, 당신이 고개를 돌린 그 순간의 '간식을 물고 있는 상태'로 영영 멈춰버립니다.
  • 문제점: 나중에 다시 그 개를 바라보면, 개는 여전히 간식을 물고 있는 모습만 반복됩니다. 시간이 흐르고 사건이 일어났다는 사실이 AI 에게는 기억되지 않는 것입니다. 이를 논문에서는 **"시야 밖의 역동성 (Out-of-sight dynamics) 부재"**라고 부릅니다.

🚀 2. LiveWorld 의 해결책: "보이지 않아도 세상은 살아있다"

LiveWorld 는 이 문제를 해결하기 위해 세상을 두 가지로 나누어 관리하는 똑똑한 방식을 고안했습니다.

🏠 비유 1: 배경은 '고정된 사진', 사람들은 '실시간 드라마'

LiveWorld 는 세상을 다음과 같이 분리합니다.

  1. 배경 (Static): 나무, 건물, 바닥 같은 변하지 않는 것들은 3D 사진첩에 저장해 둡니다.
  2. 동적인 존재 (Dynamic): 사람, 동물, 움직이는 사물들은 별도의 드라마 제작팀이 맡습니다.

📹 비유 2: 보이지 않는 곳에도 '감시카메라 (Monitor)'를 설치하다

이게 바로 LiveWorld 의 핵심 아이디어입니다.

  • 기존 방식: 카메라가 비추는 곳만 촬영합니다.
  • LiveWorld 방식: 카메라가 비추지 않는 곳에도 **가상의 '감시카메라 (Monitor)'**를 설치합니다.
    • 당신이 개를 보고 있다가 고개를 돌리면, 그 개 옆에 설치된 '감시카메라'는 계속해서 개를 촬영합니다.
    • 개가 간식을 먹고, 배를 두드리고, 일어나서 뛰어가는 모든 과정을 그 감시카메라가 **스스로 빠르게 재생 (Fast-forward)**하며 기록해 둡니다.
    • 당신이 다시 고개를 돌려 개를 보면, AI 는 "아, 이 개는 내가 안 보고 있는 동안 이렇게 살았구나!"라고 생각하며, 실제 시간이 흐른 후의 모습을 보여줍니다.

🛠️ 3. 어떻게 작동할까요? (간단한 과정)

  1. 관찰 (Observation): 사용자가 카메라로 장면을 비춥니다.
  2. 등록 (Registration): 움직이는 대상 (예: 개) 이 발견되면, 그 위치에 **가상의 '감시카메라'**를 설치합니다.
  3. 진행 (Evolution): 사용자가 다른 곳을 보더라도, 그 감시카메라는 스스로 시간을 앞당겨 대상의 다음 행동을 만들어냅니다. (예: 개가 간식을 다 먹고 뛰어가는 장면 생성)
  4. 재결합 (Rendering): 사용자가 다시 그 장면을 바라보면, AI 는 실제 흐른 시간만큼 발전된 상태를 배경 사진과 합쳐서 보여줍니다.

🏆 4. 왜 이것이 중요한가요?

이 기술은 **가상 세계 (메타버스, 게임, 시뮬레이션)**를 훨씬 더 현실적으로 만듭니다.

  • 이전: 게임 캐릭터가 시야에서 사라지면 멈춰서 있다가, 다시 나타나면 같은 포즈로 돌아옵니다.
  • LiveWorld: 캐릭터가 시야에서 사라지는 동안에도 계속 움직이고, 먹이를 먹고, 자고, 일어난 뒤 다시 나타납니다. 세상이 24 시간 내내 살아 숨 쉬는 것처럼 느껴집니다.

💡 한 줄 요약

"LiveWorld 는 우리가 눈을 돌리는 동안에도 세상이 멈추지 않고 계속 살아 숨 쉬도록, 보이지 않는 곳에도 '가상의 감시카메라'를 설치해 시간을 계속 흐르게 만드는 기술입니다."

이 기술은 앞으로 우리가 가상 현실에서 더 자연스럽고 긴 호흡의 이야기를 경험하는 데 큰 도움을 줄 것입니다.