LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 기존 AI 의 문제: "눈을 돌리면 세상이 멈춘다?"

기존의 영상 생성 AI 는 마치 눈을 감으면 세상이 멈추는 마법을 가지고 있었습니다.

상황: 당신이 공원에서 개가 간식을 먹고 있는 장면을 보고 있다고 상상해 보세요.
기존 AI 의 행동: 당신이 고개를 돌려 개가 보이지 않는 다른 곳을 바라보면, AI 는 "아, 개는 이제 안 보이니까 멈춰야지!"라고 생각합니다. 그래서 개가 간식을 다 먹고 배를 두드리고 있는 장면이 아니라, 당신이 고개를 돌린 그 순간의 '간식을 물고 있는 상태'로 영영 멈춰버립니다.
문제점: 나중에 다시 그 개를 바라보면, 개는 여전히 간식을 물고 있는 모습만 반복됩니다. 시간이 흐르고 사건이 일어났다는 사실이 AI 에게는 기억되지 않는 것입니다. 이를 논문에서는 **"시야 밖의 역동성 (Out-of-sight dynamics) 부재"**라고 부릅니다.

🚀 2. LiveWorld 의 해결책: "보이지 않아도 세상은 살아있다"

LiveWorld 는 이 문제를 해결하기 위해 세상을 두 가지로 나누어 관리하는 똑똑한 방식을 고안했습니다.

🏠 비유 1: 배경은 '고정된 사진', 사람들은 '실시간 드라마'

LiveWorld 는 세상을 다음과 같이 분리합니다.

배경 (Static): 나무, 건물, 바닥 같은 변하지 않는 것들은 3D 사진첩에 저장해 둡니다.
동적인 존재 (Dynamic): 사람, 동물, 움직이는 사물들은 별도의 드라마 제작팀이 맡습니다.

📹 비유 2: 보이지 않는 곳에도 '감시카메라 (Monitor)'를 설치하다

이게 바로 LiveWorld 의 핵심 아이디어입니다.

기존 방식: 카메라가 비추는 곳만 촬영합니다.
LiveWorld 방식: 카메라가 비추지 않는 곳에도 **가상의 '감시카메라 (Monitor)'**를 설치합니다.
- 당신이 개를 보고 있다가 고개를 돌리면, 그 개 옆에 설치된 '감시카메라'는 계속해서 개를 촬영합니다.
- 개가 간식을 먹고, 배를 두드리고, 일어나서 뛰어가는 모든 과정을 그 감시카메라가 **스스로 빠르게 재생 (Fast-forward)**하며 기록해 둡니다.
- 당신이 다시 고개를 돌려 개를 보면, AI 는 "아, 이 개는 내가 안 보고 있는 동안 이렇게 살았구나!"라고 생각하며, 실제 시간이 흐른 후의 모습을 보여줍니다.

🛠️ 3. 어떻게 작동할까요? (간단한 과정)

관찰 (Observation): 사용자가 카메라로 장면을 비춥니다.
등록 (Registration): 움직이는 대상 (예: 개) 이 발견되면, 그 위치에 **가상의 '감시카메라'**를 설치합니다.
진행 (Evolution): 사용자가 다른 곳을 보더라도, 그 감시카메라는 스스로 시간을 앞당겨 대상의 다음 행동을 만들어냅니다. (예: 개가 간식을 다 먹고 뛰어가는 장면 생성)
재결합 (Rendering): 사용자가 다시 그 장면을 바라보면, AI 는 실제 흐른 시간만큼 발전된 상태를 배경 사진과 합쳐서 보여줍니다.

🏆 4. 왜 이것이 중요한가요?

이 기술은 **가상 세계 (메타버스, 게임, 시뮬레이션)**를 훨씬 더 현실적으로 만듭니다.

이전: 게임 캐릭터가 시야에서 사라지면 멈춰서 있다가, 다시 나타나면 같은 포즈로 돌아옵니다.
LiveWorld: 캐릭터가 시야에서 사라지는 동안에도 계속 움직이고, 먹이를 먹고, 자고, 일어난 뒤 다시 나타납니다. 세상이 24 시간 내내 살아 숨 쉬는 것처럼 느껴집니다.

💡 한 줄 요약

"LiveWorld 는 우리가 눈을 돌리는 동안에도 세상이 멈추지 않고 계속 살아 숨 쉬도록, 보이지 않는 곳에도 '가상의 감시카메라'를 설치해 시간을 계속 흐르게 만드는 기술입니다."

이 기술은 앞으로 우리가 가상 현실에서 더 자연스럽고 긴 호흡의 이야기를 경험하는 데 큰 도움을 줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

최근 생성형 비디오 월드 모델 (Generative Video World Models) 은 카메라 제어를 통해 사용자가 가상 환경을 상호작용하며 탐색할 수 있게 해줍니다. 그러나 기존 모델들은 다음과 같은 근본적인 한계를 가지고 있습니다.

시야 밖 역동성의 부재 (Out-of-Sight Dynamics Problem): 기존 모델은 관찰자의 시야 (Field of View) 안에 있는 영역만 진화하고, 시야에서 벗어난 객체의 상태는 마지막 관측된 순간에 **'동결 (Frozen)'**된다고 가정합니다.
결과: 관찰자가 시야를 돌렸다가 다시 돌아와도, 그 사이에 발생한 사건 (예: 개가 밥을 다 먹은 상태) 이 반영되지 않고 과거의 스냅샷 (밥을 먹고 있는 중간 상태) 이 그대로 재생됩니다.
근본 원인: 기존 모델들은 '세계의 진화 (World Evolution)'와 '관찰 렌더링 (Observation Rendering)'을 하나의 블랙박스 생성기로 통합하여, 시야 밖의 시간적 진행을 명시적으로 모델링하지 못합니다.

2. 방법론 (Methodology)

저자들은 LiveWorld라는 새로운 프레임워크를 제안하여 세계의 진화와 렌더링을 명시적으로 분리 (Decoupling) 합니다.

가. 구조화된 세계 상태 근사 (Structured World-State Approximation)

전체 4D 세계 상태를 유지하는 것은 계산적으로 불가능하므로, 물리적 특성에 따라 두 가지 구성 요소로 분해합니다:

정적 배경 ( $M_{static}$ ): 시간에 불변하는 배경을 3D 포인트 클라우드로 축적하여 표현합니다.
동적 엔티티 ( $M_{dyn}$ ): 희소하게 분포된 움직이는 객체들은 시간 차원을 유지하며 시야 밖에서도 계속 진화하도록 합니다.

나. 모니터 기반 진화 시스템 (Monitor-based Evolution System)

모니터 (Monitor) 등록: 동적 엔티티가 감지되면 해당 위치에 가상 '모니터'를 등록합니다.
비동기적 시간 진행: 관찰자가 시야를 돌린 후에도, 모니터는 해당 엔티티의 시간적 진행을 자율적으로 '빠르게 감기 (Fast-forward)' 시킵니다. 이는 관찰자의 카메라 움직임과 무관하게 독립적으로 작동합니다.
동기화: 관찰자가 다시 해당 영역을 방문할 때, 모니터가 진화시킨 상태가 렌더링에 반영되어 공간적 일관성을 유지합니다.

다. 통합 상태 조건부 비디오 백본 (Unified State-Conditioned Video Backbone)

진화 엔진 ( $G^{evo}_{\theta}$ ) 과 렌더러 ( $G^{render}_{\theta}$ ) 는 개념적으로 다르지만, 동일한 생성 패러다임을 공유하므로 단일 비디오 확산 (Diffusion) 백본을 공유합니다.

상태 어댑터 (State Adapter): 3D 포인트 클라우드나 진화된 동적 객체의 투영 (Projection) 을 입력받아 기하학적 구조를 강하게 제어합니다.
LoRA 참조 프레임: 과거 프레임과 텍스트 프롬프트를 결합하여 세부적인 외관 (Texture) 과 운동 연속성을 제공합니다.
작동 방식:
1. 진화 단계: 고정된 카메라 (모니터) 에서 동적 객체의 미래 상태를 생성하여 4D 포인트 클라우드로 변환.
2. 렌더링 단계: 관찰자의 새로운 카메라 경로에 맞춰 정적 배경과 진화된 동적 객체를 투영하여 최종 비디오를 생성.

3. 주요 기여 (Key Contributions)

문제 공식화: 비디오 월드 모델에서 간과되었던 '시야 밖 역동성 (Out-of-sight dynamics)' 문제를 엄격하게 식별하고 공식화했습니다.
LiveWorld 프레임워크: 세계 진화와 렌더링을 분리하고, 모니터 기반의 자율 진화 시스템을 도입하여 시야 밖에서도 시간이 흐르는 4D 동적 세계를 구현했습니다.
LiveBench 벤치마크: 시야 밖 역동성과 장기적 장면 일관성을 정량적으로 평가하기 위한 최초의 전용 벤치마크를 개발했습니다. (100 개의 장면, 400 개의 평가 시퀀스 포함)
성능 입증: 기존 2D 기반 메모리 방식과 진정한 4D 동적 시뮬레이션 간의 격차를 해소하여, 기존 최첨단 모델들을 압도하는 성능을 보였습니다.

4. 실험 결과 (Results)

LiveBench를 통한 정량적 및 정성적 평가 결과:

정적 배경 유지: 3D 포인트 클라우드 축적을 통해 기존 모델들 (Matrix-Game-2, Hunyuan-GameCraft 등) 보다 장기적인 카메라 이동 후에도 배경 왜곡 없이 일관성을 유지했습니다.
동적 객체 보존: 시야 밖에서 시간이 흐른 후 다시 돌아왔을 때, 객체의 형태와 위치 (Chamfer Distance) 가 정확하게 유지되었습니다. 기존 모델들은 시야를 벗어나면 객체가 멈추거나 왜곡되는 현상이 발생했습니다.
이벤트 진행성 (Event Progression): 텍스트 프롬프트에 따른 논리적인 사건 진행 (예: 밥을 먹고 사라짐) 을 시야 밖에서도 성공적으로 구현했습니다. VQA 정확도 (VQA-Acc) 에서 기존 모델 대비 월등히 높은 점수를 기록했습니다.
다중 이벤트 시뮬레이션: 늦게 등장하는 객체와 동시에 발생하는 여러 이벤트를 처리하는 능력에서도 기존 모델이 0% 에 수렴한 반면, LiveWorld 는 26% 의 성공률을 보이며 다중 이벤트 모델링의 필수성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

패러다임 전환: 기존 비디오 생성 모델이 가진 '관찰자 중심 (Observer-centric)'의 정적 메모리 한계를 극복하고, **자율적인 세계 진화 (Autonomous World Evolution)**를 가능하게 했습니다.
실용적 가치: 에이전트 훈련, 의사결정, 대규모 합성 환경 생성 등 장기적인 시간적 일관성이 필요한 응용 분야에서 필수적인 기술적 토대를 제공합니다.
미래 지향성: 단순한 2D 비디오 예측을 넘어, 관찰 여부와 상관없이 끊임없이 진화하는 진짜 4D 동적 세계 시뮬레이션으로의 도약을 이끌었습니다.

요약하자면, LiveWorld는 "보이지 않는 곳에서도 세상은 계속 움직인다"는 사실을 모델링에 반영하여, 생성형 AI 가 더 현실적이고 일관된 가상 세계를 구축할 수 있게 한 획기적인 연구입니다.