Solaris: Building a Multiplayer Video World Model in Minecraft

이 논문은 마인크래프트에서 1,264 만 개의 멀티플레이어 프레임을 수집하고 점진적 학습 파이프라인을 통해 일관된 다중 관점 관찰을 시뮬레이션하는 새로운 멀티플레이어 비디오 월드 모델 'Solaris'를 제안합니다.

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'솔라리스 (Solaris)'**라는 새로운 인공지능을 소개합니다. 이 AI 는 게임 '마인크래프트'에서 **두 명의 플레이어가 함께 놀 때, 서로의 시선과 행동을 완벽하게 예측하고 만들어내는 '예측 천재'**입니다.

기존의 AI 는 한 사람만 보는 '1 인칭 시점'의 미래만 예측할 수 있었지만, 솔라리스는 두 사람 (혹은 그 이상) 이 동시에 보는 화면을 모두 만들어냅니다.

이 복잡한 내용을 누구나 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 문제: "나만 보는 영화" vs "함께 보는 영화"

기존의 비디오 생성 AI 는 마치 혼자 영화를 보는 사람과 같습니다. 내가 무엇을 하고 다음에 어떤 장면이 나올지 예측할 수는 있지만, 내 옆에 있는 친구가 무엇을 보고, 친구의 시선에서 내 모습이 어떻게 보이는지는 전혀 모릅니다.

하지만 현실 세계는 함께 영화를 보는 두 사람과 같습니다. 내가 벽을 치면, 친구도 그 벽을 봅니다. 내가 친구를 바라보면, 친구도 나를 봅니다. 이 '서로 연결된 시선'을 예측하는 것은 매우 어렵습니다.

솔라리스는 바로 이 **'함께 보는 영화'**를 만들어냅니다. 플레이어 A 가 블록을 쌓는 순간, 플레이어 B 의 시선에서도 그 블록이 쌓이는 것을 정확히 예측하고 만들어냅니다.

2. 데이터 수집: "로봇 배우단"과 "투명 카메라"

이 AI 를 가르치기 위해서는 엄청난 양의 '함께 노는' 데이터가 필요합니다. 하지만 사람이 직접 두 명씩 모여서 게임을 하고 기록하는 것은 너무 느리고 비쌉니다.

그래서 연구팀은 **솔라리스 엔진 (SolarisEngine)**이라는 시스템을 만들었습니다.

  • 비유: 이 시스템은 수천 명의 로봇 배우단을 고용한 영화 제작소와 같습니다.
  • 작동 원리:
    1. 로봇 배우 (Bot): 마인크래프트를 자동으로 하는 로봇들이 서로 협력하여 집을 짓거나, 싸우거나, 광물을 캐는 연기를 합니다.
    2. 투명 카메라 (Camera Bot): 로봇의 손에 들린 카메라가 아니라, 로봇의 눈과 정확히 일치하는 '투명한 카메라'가 로봇의 시선을 그대로 녹화합니다.
    3. 동기화: 로봇 A 가 "벽을 쌓아!"라고 명령하면, 로봇 B 의 시선에서도 그 벽이 쌓이는 장면이 동시에 녹화됩니다.

이렇게 해서 1,264 만 장이라는 어마어마한 양의 '함께 노는' 데이터를 모았습니다.

3. 학습 방법: "단계별 성장"과 "기억력 훈련"

이 AI 를 가르치는 과정은 마치 유치원생이 대학생이 될 때까지 성장하는 과정과 같습니다.

  • 1 단계 (유치원): 먼저 혼자 노는 법 (1 인칭 시점) 을 배웁니다. 블록을 쌓고, 움직이는 기본 원리를 익힙니다.
  • 2 단계 (초등학교): 이제 두 사람씩 짝을 지어 함께 노는 법을 배웁니다. 서로의 시선을 맞추는 연습을 합니다.
  • 3 단계 (중고등학교): 과거의 행동이 미래에 어떻게 영향을 미치는지 (인과관계) 를 배웁니다.
  • 4 단계 (대학생 - 체크포인트 셀프 포싱): 이것이 가장 혁신적인 부분입니다.
    • 문제: 긴 이야기를 계속 만들어내려면 AI 의 '기억 (메모리)'이 너무 빨리 꽉 차서 터져버립니다.
    • 해결책 (체크포인트): 연구팀은 기억을 정리하는 새로운 방법을 개발했습니다. 마치 긴 글을 쓸 때, 중간중간 중요한 부분만 메모장에 적어두고 (체크포인트), 나머지는 필요할 때 다시 써내려가는 방식입니다.
    • 효과: 이 덕분에 AI 는 매우 긴 시간 동안 (수백 프레임) 끊기지 않고, 두 사람의 시선을 동시에 유지하며 안정적인 영상을 만들어낼 수 있게 되었습니다.

4. 결과: 무엇이 가능해졌나요?

솔라리스는 다음과 같은 놀라운 능력을 보여줍니다.

  • 동시성: 한 플레이어가 비를 피하기 위해 우산을 쓰면, 다른 플레이어의 시선에서도 비가 오고 우산이 열리는 것이 보입니다.
  • 기억: 플레이어가 다른 쪽을 보고 있을 때, AI 는 그 플레이어가 어디에 있는지, 무엇을 하고 있는지 '기억'하고 있습니다. 다시 돌아오면 정확한 위치에 있습니다.
  • 상호작용: 한 사람이 벽을 부수면, 다른 사람의 시선에서도 그 벽이 무너지고 먼지가 날리는 것이 보입니다.

요약

솔라리스는 "혼자 노는 AI"에서 **"함께 노는 AI"**로 진화한 첫 번째 모델입니다.
연구팀은 로봇 배우단으로 데이터를 모으고, 기억 정리 기술로 긴 이야기를 만들어내며, 서로 연결된 시선을 완벽하게 구현했습니다. 이는 앞으로 로봇이 서로 협력하거나, 복잡한 3D 세계에서 AI 가 함께 일하는 미래를 위한 중요한 첫걸음이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →