Solaris: Building a Multiplayer Video World Model in Minecraft

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'솔라리스 (Solaris)'**라는 새로운 인공지능을 소개합니다. 이 AI 는 게임 '마인크래프트'에서 **두 명의 플레이어가 함께 놀 때, 서로의 시선과 행동을 완벽하게 예측하고 만들어내는 '예측 천재'**입니다.

기존의 AI 는 한 사람만 보는 '1 인칭 시점'의 미래만 예측할 수 있었지만, 솔라리스는 두 사람 (혹은 그 이상) 이 동시에 보는 화면을 모두 만들어냅니다.

이 복잡한 내용을 누구나 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 문제: "나만 보는 영화" vs "함께 보는 영화"

기존의 비디오 생성 AI 는 마치 혼자 영화를 보는 사람과 같습니다. 내가 무엇을 하고 다음에 어떤 장면이 나올지 예측할 수는 있지만, 내 옆에 있는 친구가 무엇을 보고, 친구의 시선에서 내 모습이 어떻게 보이는지는 전혀 모릅니다.

하지만 현실 세계는 함께 영화를 보는 두 사람과 같습니다. 내가 벽을 치면, 친구도 그 벽을 봅니다. 내가 친구를 바라보면, 친구도 나를 봅니다. 이 '서로 연결된 시선'을 예측하는 것은 매우 어렵습니다.

솔라리스는 바로 이 **'함께 보는 영화'**를 만들어냅니다. 플레이어 A 가 블록을 쌓는 순간, 플레이어 B 의 시선에서도 그 블록이 쌓이는 것을 정확히 예측하고 만들어냅니다.

2. 데이터 수집: "로봇 배우단"과 "투명 카메라"

이 AI 를 가르치기 위해서는 엄청난 양의 '함께 노는' 데이터가 필요합니다. 하지만 사람이 직접 두 명씩 모여서 게임을 하고 기록하는 것은 너무 느리고 비쌉니다.

그래서 연구팀은 **솔라리스 엔진 (SolarisEngine)**이라는 시스템을 만들었습니다.

비유: 이 시스템은 수천 명의 로봇 배우단을 고용한 영화 제작소와 같습니다.
작동 원리:
1. 로봇 배우 (Bot): 마인크래프트를 자동으로 하는 로봇들이 서로 협력하여 집을 짓거나, 싸우거나, 광물을 캐는 연기를 합니다.
2. 투명 카메라 (Camera Bot): 로봇의 손에 들린 카메라가 아니라, 로봇의 눈과 정확히 일치하는 '투명한 카메라'가 로봇의 시선을 그대로 녹화합니다.
3. 동기화: 로봇 A 가 "벽을 쌓아!"라고 명령하면, 로봇 B 의 시선에서도 그 벽이 쌓이는 장면이 동시에 녹화됩니다.

이렇게 해서 1,264 만 장이라는 어마어마한 양의 '함께 노는' 데이터를 모았습니다.

3. 학습 방법: "단계별 성장"과 "기억력 훈련"

이 AI 를 가르치는 과정은 마치 유치원생이 대학생이 될 때까지 성장하는 과정과 같습니다.

1 단계 (유치원): 먼저 혼자 노는 법 (1 인칭 시점) 을 배웁니다. 블록을 쌓고, 움직이는 기본 원리를 익힙니다.
2 단계 (초등학교): 이제 두 사람씩 짝을 지어 함께 노는 법을 배웁니다. 서로의 시선을 맞추는 연습을 합니다.
3 단계 (중고등학교): 과거의 행동이 미래에 어떻게 영향을 미치는지 (인과관계) 를 배웁니다.
4 단계 (대학생 - 체크포인트 셀프 포싱): 이것이 가장 혁신적인 부분입니다.
- 문제: 긴 이야기를 계속 만들어내려면 AI 의 '기억 (메모리)'이 너무 빨리 꽉 차서 터져버립니다.
- 해결책 (체크포인트): 연구팀은 기억을 정리하는 새로운 방법을 개발했습니다. 마치 긴 글을 쓸 때, 중간중간 중요한 부분만 메모장에 적어두고 (체크포인트), 나머지는 필요할 때 다시 써내려가는 방식입니다.
- 효과: 이 덕분에 AI 는 매우 긴 시간 동안 (수백 프레임) 끊기지 않고, 두 사람의 시선을 동시에 유지하며 안정적인 영상을 만들어낼 수 있게 되었습니다.

4. 결과: 무엇이 가능해졌나요?

솔라리스는 다음과 같은 놀라운 능력을 보여줍니다.

동시성: 한 플레이어가 비를 피하기 위해 우산을 쓰면, 다른 플레이어의 시선에서도 비가 오고 우산이 열리는 것이 보입니다.
기억: 플레이어가 다른 쪽을 보고 있을 때, AI 는 그 플레이어가 어디에 있는지, 무엇을 하고 있는지 '기억'하고 있습니다. 다시 돌아오면 정확한 위치에 있습니다.
상호작용: 한 사람이 벽을 부수면, 다른 사람의 시선에서도 그 벽이 무너지고 먼지가 날리는 것이 보입니다.

요약

솔라리스는 "혼자 노는 AI"에서 **"함께 노는 AI"**로 진화한 첫 번째 모델입니다.
연구팀은 로봇 배우단으로 데이터를 모으고, 기억 정리 기술로 긴 이야기를 만들어내며, 서로 연결된 시선을 완벽하게 구현했습니다. 이는 앞으로 로봇이 서로 협력하거나, 복잡한 3D 세계에서 AI 가 함께 일하는 미래를 위한 중요한 첫걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

Solaris: 마인크래프트 기반의 멀티플레이어 비디오 월드 모델 구축

1. 문제 정의 (Problem)

기존의 행동 조건부 비디오 생성 모델 (Video World Models) 은 주로 단일 에이전트 (Single-agent) 의 관점에만 국한되어 있습니다. 이는 실제 세계의 다중 에이전트 상호작용을 포착하는 데 한계가 있습니다.

한계점: 단일 에이전트 모델은 시간이 지남에 따른 일관성은 유지할 수 있지만, 여러 에이전트가 공유하는 환경에서 한 에이전트의 행동 (이동, 블록 배치 등) 이 다른 모든 에이전트의 관점에서 어떻게 동시에 그리고 정확하게 반영되어야 하는지를 모델링하지 못합니다.
필요성: 실제 세계와 같은 다중 에이전트 환경에서 정확한 세계 상태를 시뮬레이션하려면, 모든 에이전트의 관점을 동시에 일관되게 생성할 수 있는 멀티플레이어 비디오 월드 모델이 필요합니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 SolarisEngine(데이터 수집 시스템) 과 Solaris(모델 아키텍처 및 학습 파이프라인) 를 제안했습니다.

A. SolarisEngine: 대규모 멀티플레이어 데이터 수집 프레임워크

목표: 마인크래프트에서 사전 프로그래밍된 봇들을 통해 대규모의 멀티플레이어 게임플레이 데이터를 자동화하고 지속적으로 수집합니다.
기술적 특징:
- Mineflayer 기반: 기존 RL 프레임워크 (Malmo, MineRL 등) 는 시각적 렌더링이 부족하거나 제어력이 낮아, 고수준의 행동 원시 (Building, Combat 등) 를 제공하는 Mineflayer 를 기반으로 개발되었습니다.
- 동기화 시스템: 각 컨트롤러 봇 (행동 수행) 에 대응하는 '카메라 봇'을 배치하여, 서버 사이드 플러그인을 통해 컨트롤러의 상태와 행동을 실시간으로 미러링하고 동기화합니다.
- 데이터셋: 총 1,264 만 프레임(플레이어당 632 만 프레임) 의 멀티플레이어 데이터를 수집하였으며, 건설, 전투, 이동, 채굴 등 다양한 시나리오를 포함합니다.

B. Solaris 모델 아키텍처

기반 모델: 단일 에이전트용 비디오 Diffusion Transformer (DiT) 인 Matrix Game 2.0 을 기반으로 합니다.
멀티플레이어 적응:
- Visual Interleaving: 플레이어 간 정보를 교환하기 위해 시퀀스 차원을 따라 시각 토큰을 인터리빙 (interleaving) 하고, 공유된 셀프 어텐션 (Shared Self-Attention) 레이어를 도입합니다.
- 플레이어 ID 임베딩: 각 플레이어의 토큰에 학습 가능한 플레이어 ID 임베딩을 추가하여 식별합니다.
- 액션 공간 확장: 마인크래프트의 전체 행동 공간 (MineRL 스타일) 을 지원하도록 확장했습니다.

C. 학습 파이프라인 (Staged Training Pipeline)
모델의 안정성과 장기적 생성 능력을 위해 4 단계 학습 전략을 사용합니다.

Bidirectional Single-Player: 단일 플레이어 데이터 (VPT) 로 모델을 미세 조정하여 초기화합니다.
Bidirectional Multiplayer: 수집된 멀티플레이어 데이터로 양방향 어텐션을 통해 학습합니다.
Causal Multiplayer: Diffusion Forcing 을 사용하여 자기회귀 (Autoregressive) 생성을 가능하게 하는 인과적 (Causal) 모델로 전환합니다.
Self Forcing: 장기 생성 시 발생하는 훈련 - 테스트 불일치를 해결하기 위해 모델의 자체 생성물을 교사로 활용합니다.

D. 핵심 기술: Checkpointed Self Forcing

문제: 긴 시퀀스를 슬라이딩 윈도우로 생성하며 Self Forcing 을 적용할 때, 역전파를 위한 메모리 사용량이 기하급수적으로 증가 ( $O(L_t \cdot L_s)$ ) 하여 OOM(Out Of Memory) 이 발생합니다.
해결책: Checkpointed Self Forcing을 도입했습니다.
- 자기회귀 롤아웃 (Rollout) 시 중간 노이즈 프레임을 메모리에 저장하고 그래디언트 계산을 중단합니다.
- 이후 재계산 (Recomputation) 단계를 통해 역전파를 수행합니다. 이는 Gradient Checkpointing 과 유사한 원리로, 메모리 복잡도를 $O(L_t)$ 로 줄이면서도 긴 시퀀스 생성을 가능하게 합니다.
- 또한, 학생 모델이 더 긴 컨텍스트를 가진 교사의 혜택을 볼 수 있도록 확장했습니다.

3. 주요 기여 (Key Contributions)

SolarisEngine: 마인크래프트에서 조율된 멀티플레이어 상호작용과 동기화된 비디오 + 행동 데이터를 수집할 수 있는 최초의 공개 시스템.
대규모 멀티플레이어 데이터셋: 1,264 만 프레임의 멀티플레이어 마인크래프트 데이터셋과 이를 평가하기 위한 벤치마크 (이동, 기억, 그라운딩, 건설, 뷰 일관성).
Solaris 아키텍처: 사전 훈련된 단일 플레이어 비디오 DiT 를 최소한의 수정으로 멀티플레이어 시뮬레이션에 적응시키는 새로운 아키텍처.
Checkpointed Self Forcing: 메모리 효율적인 자기강제 (Self Forcing) 변형 기법으로, 장기적 자기회귀 생성을 가능하게 함.

4. 실험 결과 (Results)

정성적 평가: Solaris 는 긴 시퀀스 (224 프레임 이상) 에 걸쳐 두 플레이어의 관점에서 일관된 전투, 건설, 채굴, 날씨 변화 등을 정확하게 생성합니다. 기존 베이스라인 (Frame Concatenation 등) 은 시간이 지남에 따라 텍스처가 평평해지거나 플레이어가 중복되는 등 심각한 왜곡을 보인 반면, Solaris 는 높은 시각적 충실도를 유지합니다.
정량적 평가 (VLM Judge 및 FID):
- VLM (Vision-Language Model) 점수: 건설 (Building) 과 일관성 (Consistency) 과 같은 복잡한 작업에서 기존 방법 (Multiverse 등) 보다 월등히 높은 점수를 기록했습니다.
- FID (Fréchet Inception Distance): 모든 평가 카테고리에서 더 낮은 (더 좋은) FID 점수를 달성하여 생성된 비디오의 품질이 우수함을 입증했습니다.
- Ablation Study: 단일 플레이어 사전 학습 (Pretraining) 이 필수적이며, Checkpointed Self Forcing 을 통해 KV 캐시에 역전파를 허용할 때 시각적 품질이 가장 향상됨을 확인했습니다.

5. 의의 및 결론 (Significance)

다중 에이전트 세계 모델의 새로운 지평: 단일 에이전트 시뮬레이션을 넘어, 여러 에이전트가 상호작용하는 복잡한 3D 환경의 세계 모델을 구축하는 데 성공했습니다.
데이터 및 인프라 기여: 대규모 멀티플레이어 데이터 수집을 위한 오픈소스 시스템 (SolarisEngine) 과 데이터셋을 공개하여, 향후 비전 - 언어 - 행동 (VLA) 모델 학습이나 다중 에이전트 협력 연구의 기반을 마련했습니다.
한계 및 향후 연구: 현재 데이터가 모두 합성 (Synthetic) 이며, 모델이 플레이어 간 시야가 가려질 때 공유된 컨텍스트를 유지하지 못하는 (지속적 기억 부재) 한계가 있습니다. 이는 향후 연구의 중요한 방향성을 제시합니다.

요약하자면, Solaris 는 마인크래프트라는 복잡한 3D 환경에서 여러 에이전트의 관점을 일관되게 시뮬레이션할 수 있는 최초의 비디오 월드 모델을 제시하며, 효율적인 장기 생성 학습을 위한 새로운 방법론 (Checkpointed Self Forcing) 을 제안했다는 점에서 의의가 큽니다.

Solaris: Building a Multiplayer Video World Model in Minecraft

1. 문제: "나만 보는 영화" vs "함께 보는 영화"

2. 데이터 수집: "로봇 배우단"과 "투명 카메라"

3. 학습 방법: "단계별 성장"과 "기억력 훈련"

4. 결과: 무엇이 가능해졌나요?

요약

Solaris: 마인크래프트 기반의 멀티플레이어 비디오 월드 모델 구축

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation