Each language version is independently generated for its own context, not a direct translation.

Vid2World: 인터넷의 모든 영상을 배운 '예측 천재'를 '상상력 있는 게임 마스터'로 바꾸는 방법

이 논문은 **"Vid2World"**라는 새로운 기술을 소개합니다. 쉽게 말해, **"우리가 인터넷에서 본 수많은 영상들을 배운 AI 를, 직접 행동하면 미래를 예측할 수 있는 '상상력 있는 마스터'로 변신시키는 방법"**입니다.

이걸 이해하기 위해 몇 가지 비유를 들어보겠습니다.

1. 문제: "예상만 잘하는 천재" vs "행동하는 마스터"

**기존의 AI (세계 모델)**는 마치 **"과거의 기록만 보고 미래를 점치는 점술가"**와 같습니다.

단점: 점술가에게 "내일 비가 오면 우산을 쓰면 어떨까?"라고 물으면, "우산을 쓰지 않아도 비는 온다"라고만 대답합니다. "내가 우산을 쓰면 어떻게 될까?"라는 **상상 (Counterfactual)**을 하거나, 직접 행동에 따라 미래를 바꿀 수 있는 능력이 부족합니다. 또한, 이런 점술가를 가르치려면 매번 "행동 + 결과"가 적힌 고가의 데이터 (예: 로봇이 물건을 집는 영상) 를 수천 시간씩 준비해야 해서 매우 비쌉니다.

**기존의 비디오 생성 AI (Diffusion Model)**는 **"인터넷의 모든 영상을 본 예술가"**와 같습니다.

장점: 유튜브, 영화, 다큐멘터리 등 인터넷에 있는 모든 영상을 보고 물리 법칙 (공이 떨어지는 모습, 물결치는 모습) 을 완벽하게 배웠습니다.
단점: 이 예술가는 **"수동적 (Passive)"**입니다. "다음 장면을 그려줘"라고 하면 예쁘게 그려주지만, "내가 이렇게 행동하면 다음 장면은 어떨까?"라고 지시하면 어떻게 반응할지 모릅니다. 또한, 과거와 미래를 동시에 보며 그림을 그리기 때문에 (양방향), "지금 이 순간에 내가 행동하면 미래가 어떻게 변할까?"라는 **인과관계 (Causality)**를 제대로 이해하지 못합니다.

2. 해결책: Vid2World (비디오 → 세계 모델)

저자들은 이 두 AI 를 합쳐서 **"행동하면 미래를 예측하는 상호작용형 세계 모델"**을 만들었습니다. 마치 **"인터넷의 모든 영상을 보고 물리 법칙을 배운 예술가에게, '내가 이렇게 행동하면 어떻게 될까?'라는 질문을 던지는 훈련"**을 시키는 것과 같습니다.

이를 위해 두 가지 핵심 기술을 사용했습니다:

① "시간의 화살"을 거꾸로 돌리지 않기 (Causalization)

비유: 기존 예술가는 그림을 그릴 때 "앞장면"과 "뒷장면"을 동시에 보며 그림을 완성했습니다. 하지만 현실에서는 미래는 아직 오지 않았습니다.
해결: Vid2World 는 예술가의 눈을 가리고 **"오직 과거와 현재만 보고 미래를 그려라"**고 훈련시킵니다. 이를 위해 AI 의 내부 구조 (Attention, Convolution) 를 수정하여, 미래의 정보를 훔쳐보지 않고 오직 과거의 경험과 현재의 행동만으로 미래를 예측하도록 만들었습니다.

② "행동"을 지도로 삼기 (Action Guidance)

비유: 예술가에게 "이 그림을 그려줘"라고만 하면, 아무거나 그릴 수 있습니다. 하지만 **"내가 오른쪽으로 발을 들면, 그림은 어떻게 변할까?"**라고 구체적으로 지시하면, 예술가는 그 지시에 맞춰 그림을 바꿉니다.
해결: AI 가 그림을 그릴 때, 사용자의 행동 (예: 로봇 팔을 움직이는 명령, 게임 캐릭터의 이동) 을 **지도 (Guidance)**처럼 사용합니다. "이 행동을 했을 때의 미래"와 "행동을 안 했을 때의 미래"를 비교하며, 사용자의 행동이 미래에 미치는 영향을 정확히 반영하도록 훈련시킵니다.

3. 실험 결과: 어디에서나 통하는 마법

이 기술이 얼마나 강력한지 세 가지 분야에서 테스트했습니다:

로봇 조종 (Robot Manipulation):
- 로봇이 서랍을 여는 영상을 보고, "서랍을 더 세게 당기면 어떻게 될까?"를 예측했습니다. 실제 로봇의 행동과 매우 유사한 결과를 보여주며, 실제 로봇을 훈련시킬 때 시뮬레이션으로 쓸 수 있음을 증명했습니다.
게임 시뮬레이션 (CS:GO):
- 총격전 게임에서 "왼쪽으로 피하면 총알이 빗나갈까?"를 예측했습니다. 기존 AI 들이 시간이 지날수록 영상이 흐려지고 엉망이 되는 반면, Vid2World 는 선명하고 정확한 미래를 계속 그려냈습니다.
자율 주행/내비게이션:
- 차가 앞으로 나가거나 좌회전할 때의 풍경을 예측했습니다. 다른 최신 기술들보다 훨씬 더 자연스럽고 정확한 미래를 보여주었습니다.

4. 핵심 요약: 왜 이것이 중요한가?

데이터의 절약: 더 이상 "행동 + 결과"가 적힌 고가의 데이터를 수천 시간씩 모을 필요가 없습니다. 인터넷에 널려 있는 무료 영상 (행동이 없는 영상) 만으로도 충분히 강력한 AI 를 만들 수 있습니다.
상상력의 확장: AI 가 단순히 "다음 장면을 예측"하는 것을 넘어, "내가 이렇게 행동하면 어떻게 될까?"라는 상상을 할 수 있게 되었습니다. 이는 로봇이 스스로 학습하거나, 자율 주행차가 사고를 미리 예방하는 등 실제 세계에 적용되는 데 필수적인 능력입니다.

한 줄 요약:

Vid2World 는 인터넷의 모든 영상을 배운 '수동적인 예술가'를, 당신의 행동에 따라 미래를 상상해내는 '능동적인 마스터'로 변신시킨 혁신적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경:

세계 모델 (World Models): 과거 관측과 행동 시퀀스를 기반으로 미래 상태를 예측하여 순차적 의사결정을 지원하는 핵심 기술입니다.
기존 한계: 기존 세계 모델들은 주로 도메인 특화 행동 레이블 데이터 (Action-labeled data) 에만 의존하여 훈련됩니다. 이는 데이터 수집 비용이 매우 높고, 생성되는 예측이 물리적 사실성 (Physical Realism) 이 부족하거나 저해상도 (Coarse) 일 수 있어 복잡한 환경에서의 활용에 제약이 있습니다.
대안과 과제: 대규모 인터넷 비디오 데이터로 훈련된 비디오 확산 모델 (Video Diffusion Models) 은 높은 화질과 다양한 현실 세계의 역학을 포착하는 능력을 입증했습니다. 하지만 이러한 모델들은 수동적 (Passive) 인 전체 시퀀스 생성에 최적화되어 있어, 상호작용이 필요한 세계 모델 로 전환하는 데 두 가지 주요 장벽이 존재합니다.
1. 인과적 생성 (Causal Generation) 부재: 기존 확산 모델은 양방향 시간 컨텍스트 (Bidirectional context) 를 사용하여 미래 프레임이 과거에 영향을 미치는 비인과적 (Non-causal) 구조를 가집니다. 세계 모델은 과거 정보만을 기반으로 미래를 예측해야 하는 인과적 (Autoregressive) 구조가 필요합니다.
2. 행동 조건부 생성 (Action Conditioning) 부재: 기존 모델은 텍스트 프롬프트 등 거시적 입력에 의존하며, 프레임 단위의 미세한 행동 신호 (Action signals) 를 반영하여 미래 상태를 제어하는 메커니즘이 부족합니다.

2. 방법론 (Methodology: Vid2World)

저자들은 사전 훈련된 비디오 확산 모델을 상호작용 가능한 세계 모델로 전환하는 Vid2World 를 제안합니다. 이 접근법은 두 가지 핵심 기법을 통해 이루어집니다.

2.1 비디오 확산 인과화 (Video Diffusion Causalization)

비디오 확산 모델의 아키텍처와 훈련 목표를 수정하여 인과적 생성을 가능하게 합니다.

시간적 어텐션 (Temporal Attention): 비인과적 어텐션 레이어에 인과적 마스크 (Causal mask) 를 적용하여 미래 프레임의 정보 유입을 차단합니다. 이는 파라미터 수정 없이도 가능합니다.
시간적 컨볼루션 (Temporal Convolution) 의 인과화: 대칭 커널을 사용하는 컨볼루션 레이어를 인과적으로 변환하기 위해 세 가지 전략을 비교 분석하고, 가장 효과적인 외삽 가중치 이전 (Extrapolative Weight Transfer) 방식을 제안합니다.
- Shift: 가중치를 과거로 이동시키지만 시간적 정렬이 깨질 수 있음.
- Masked: 미래 가중치를 0 으로 설정하지만 유용한 정보를 잃음.
- Extrapolative: 미래 프레임의 특징을 과거 프레임의 선형 외삽 (Linear Extrapolation) 을 통해 추정하고, 이를 기존 커널 가중치에 재분배하여 원본 모델의 표현력을 최대한 보존하면서 인과적 생성을 가능하게 함.
훈련 목표 (Training Objective): Diffusion Forcing 방식을 도입하여, 각 프레임마다 독립적으로 노이즈 수준을 샘플링합니다. 이를 통해 모델이 훈련 시 다양한 노이즈 조합을 경험하게 하여, 추론 시 과거 프레임은 깨끗하고 현재 프레임만 노이즈가 있는 상태 (Autoregressive rollout) 에서도 강건하게 작동하도록 합니다.

2.2 인과적 행동 가이드 (Causal Action Guidance)

생성 과정을 사용자가 입력한 행동에 맞춰 유도하는 메커니즘입니다.

행동 주입 (Action Injection): 각 프레임의 예측 시, 직전 행동 ( $a_{t-1}$ ) 의 임베딩을 모델의 잠재 표현에 주입하여 프레임 단위의 정밀한 제어를 가능하게 합니다.
클래스프리 가이드 (Classifier-Free Guidance) 확장: 행동 조건부 (Conditional) 와 무조건부 (Unconditional, 행동 마스킹) 스코어 함수를 동시에 학습하기 위해 행동 드롭아웃 (Action Dropout) 메커니즘을 훈련 목표에 도입합니다.
확률 유도 (Probability Steering): 추론 시 클래스프리 가이드를 적용하여 생성된 분포를 행동과 일치하는 방향으로 유도합니다. 이는 수학적으로 $p(x_t | a_{t-1}) \propto p(x_t) \cdot p(a_{t-1}|x_t)^\omega$ 와 같이 행동 일치를 강화하는 사후 확률 분포를 샘플링하는 것과 동치임을 증명했습니다.

3. 주요 기여 (Key Contributions)

최초의 체계적 탐색: 전체 시퀀스 기반의 수동적 비디오 확산 모델을 순차적, 상호작용적, 행동 조건부 세계 모델로 전환하는 문제를 최초로 체계적으로 탐구했습니다.
Vid2World 프레임워크 제안: 비디오 확산 모델의 인과화 (Causalization) 와 행동 조건부 (Action Conditioning) 를 위한 새로운 기법들을 포함한 일반적이고 효과적인 방법을 제시했습니다.
새로운 벤치마크 설정: 로봇 조작, 3D 게임 시뮬레이션, 오픈 월드 내비게이션 등 다양한 도메인에서 기존 전이 학습 방법 및 최첨단 세계 모델 (SOTA) 을 능가하는 성능을 입증하여 새로운 기준을 세웠습니다.

4. 실험 결과 (Results)

저자들은 14 억 파라미터 규모의 사전 훈련된 비디오 확산 모델 (DynamiCrafter) 을 기반으로 Vid2World 를 구현하고 세 가지 도메인에서 평가했습니다.

로봇 조작 (Robot Manipulation - RT-1):
- 비자율적 (Non-autoregressive) 및 자율적 (Autoregressive) 설정 모두에서 기존 전이 방법 (ControlNet, AVID 등) 보다 우수한 FVD(Fréchet Video Distance) 및 FID 점수를 기록했습니다.
- Real2Sim 정책 평가: 실제 로봇 정책의 성능을 시뮬레이션 환경에서 평가하는 과제에서, Vid2World 는 다양한 정책 단계 (초기, 학습 중, 수렴) 간의 성공률 차이를 실제 세계와 유사하게 정확히 반영했습니다.
3D 게임 시뮬레이션 (CS:GO):
- 기존 SOTA 모델인 DIAMOND 대비 FVD 에서 71.1%, FID 에서 79.9% 의 상대적 성능 향상을 보였습니다.
- 빠른 시점 변화와 정밀한 동작이 요구되는 환경에서도 높은 시각적 충실도와 행동 일치를 유지했습니다.
오픈 월드 내비게이션 (Open-World Navigation - RECON):
- 단일 스텝 예측 및 자율적 롤아웃 (Autoregressive rollout) 모두에서 NWM(Navigation World Model) 과 경쟁하거나 우수한 성능을 보였습니다.
- 특히, 훈련 시퀀스 길이 (16 프레임) 를 초과하는 컨텍스트 (20 프레임) 에서도 강력한 시간적 일반화 능력을 입증했습니다.
추가 분석:
- Ablation Study: 외삽 가중치 이전과 행동 가이드가 성능 향상에 결정적임을 확인했습니다.
- Zero-shot Generalization: CS:GO 로 훈련된 모델이 전혀 보지 못한 Valorant 게임에서도 기본적인 시간 일관성과 행동 반응을 유지하며 제로샷 일반화 능력을 입증했습니다.

5. 의의 및 결론 (Significance)

데이터 효율성 극대화: 막대한 양의 행동 레이블 데이터 수집 없이, 인터넷 규모의 행동 없는 비디오 데이터 (Action-free video data) 로부터 학습된 풍부한 물리적 사전 지식 (Physical Priors) 을 세계 모델로 효과적으로 이전할 수 있음을 입증했습니다.
패러다임 전환: 세계 모델 구축을 '데이터 수집' 중심에서 '기존 생성 모델의 재사용 (Repurposing)' 중심으로 전환하는 새로운 패러다임을 제시합니다.
실용적 가치: 고충실도 비디오 생성 능력을 가진 확산 모델을 상호작용 가능한 시뮬레이션 도구로 변환함으로써, 로봇 공학, 자율 주행, 게임 AI 등 다양한 분야에서 의사결정 및 계획 수립을 위한 강력한 기반을 제공합니다.

이 연구는 대규모 비디오 확산 모델이 단순히 영상을 생성하는 것을 넘어, 에이전트가 환경을 이해하고 상호작용할 수 있는 인터랙티브 월드 모델 로 진화할 수 있음을 보여주는 중요한 이정표입니다.

Vid2World: Crafting Video Diffusion Models to Interactive World Models