Each language version is independently generated for its own context, not a direct translation.

🎮 멀티젠 (MultiGen): 게임 속 '공유된 기억'으로 만드는 새로운 세계

이 논문은 **"게임 엔진을 AI 로 만들 때, 왜 모든 플레이어가 같은 세상을 보고 같은 규칙을 따라야 하는지"**에 대한 해결책을 제시합니다. 기존 AI 게임들은 "지금 보고 있는 것"만 기억해서, 시간이 지나면 게임 속 세계가 뒤틀리거나 다른 사람이 본 것과 다르게 변하는 문제가 있었습니다.

이 문제를 해결하기 위해 연구진들은 **"외부 메모리 (External Memory)"**라는 새로운 개념을 도입했습니다. 이를 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드리겠습니다.

1. 기존 방식의 문제: "기억력 짧은 AI"

기존의 AI 게임 엔진 (예: GameNGen) 은 마치 매번 눈을 감았다 뜨는 사람과 같습니다.

상황: AI 가 다음 장면을 그릴 때, 오직 "최근에 본 몇 초의 영상"만 기억합니다.
문제: 게임이 길어지면 AI 는 "아, 저기 벽이 있었지?"라고 기억해내지 못합니다. 대신 머릿속에서 "아마도 벽이 있었겠지?"라고 **상상 (할루시네이션)**해서 그려냅니다.
결과: 시간이 지날수록 게임 속 길이가 길어지거나, 문이 사라지거나, 벽이 뚫리는 등 세상이 엉망이 됩니다. 또한, 두 명이 같은 게임을 할 때, A 는 "벽이 있다"고 보고 B 는 "벽이 없다"고 보는 모순이 발생합니다.

2. 멀티젠의 해결책: "공유된 지도와 메모장"

연구진은 AI 에게 **"외부 메모리"**라는 것을 달아주었습니다. 이는 마치 **게임 전체를 관리하는 '공유된 지도'와 '메모장'**과 같습니다.

🗺️ 비유 1: 건축 설계도 (Level Design)

기존: 건축가가 "이리저리 벽을 쌓아봐"라고 하면, AI 는 그 순간의 느낌만 보고 벽을 쌓습니다. 나중에 돌아오면 "어? 이 벽이 언제 사라졌지?"가 됩니다.
멀티젠: 사용자가 **처음에 '2D 지도 (미니어처 맵)'**를 그립니다. "여기는 벽, 저기는 복도"라고 명확히 적어둔 설계도를 AI 에게 줍니다.
효과: AI 는 그림을 그릴 때마다 이 설계도를 다시 확인합니다. "아, 설계도엔 여기가 복도라고 되어 있으니, 내가 아무리 멀리 가도 복도 구조는 변하지 않아야 해!"라고 일관성을 유지합니다. 사용자가 지도를 수정하면, AI 는 그 수정된 대로 즉시 세상을 바꿉니다.

🤝 비유 2: 공유된 화이트보드 (Multiplayer)

기존: 두 사람이 같은 방에서 게임을 할 때, 각자 자신의 눈앞만 봅니다. A 가 B 를 죽이면, A 의 화면에서는 B 가 사라지지만, B 의 화면에서는 "아직도 살아있네?"라고 생각할 수 있습니다. (상태가 따로 노는 것)
멀티젠: 모든 플레이어는 하나의 공유된 화이트보드를 봅니다.
- 상황: 플레이어 1 이 플레이어 2 를 쏘면, 화이트보드에 "플레이어 2 는 사망함"이라고 적힙니다.
- 효과: 플레이어 1 은 "상대가 죽었다"고 보고, 플레이어 2 는 "내가 죽어서 다시 태어났다"고 봅니다. 두 사람의 시선이 완전히 일치합니다. AI 는 각자의 눈앞을 그리되, 그 배경은 **같은 화이트보드 (외부 메모리)**를 기반으로 하기 때문에 서로 충돌하지 않습니다.

3. 어떻게 작동할까요? (3 단계 모듈)

이 시스템은 세 명의 전문가가 팀을 이루어 작동합니다.

메모리 담당 (Memory):
- 역할: "지도"와 "플레이어 위치"를 관리합니다.
- 비유: 게임의 지배인입니다. "지금 플레이어는 복도 3 번에 있고, 벽은 여기까지야"라고 정확히 기록해 둡니다. 이 정보는 AI 가 망가뜨려도 다시 원래대로 복구할 수 있는 불변의 기준이 됩니다.
화면 담당 (Observation):
- 역할: "지금 눈앞에 보이는 영상"을 그립니다.
- 비유: 화가입니다. 지배인이 "지금 복도 3 번에 있어"라고 말해주면, 그 정보를 바탕으로 "복도 3 번의 모습"을 생생하게 그립니다. 하지만 지도를 보지 않고는 그림을 그릴 수 없습니다.
동작 담당 (Dynamics):
- 역할: "플레이어가 움직이면 위치를 업데이트"합니다.
- 비유: 운전사입니다. "앞으로 10 미터 전진"이라는 명령을 받으면, 지배인의 지도에 "플레이어 위치를 10 미터 옮김"이라고 적어줍니다.

4. 왜 이것이 중요한가요?

사용자가 직접 게임 디자인 가능: 복잡한 코딩 없이, 간단한 지도 그리기로 게임의 구조를 바꿀 수 있습니다. "여기에 문이 생겼으면 좋겠다"라고 지도를 수정하면, AI 는 그 문이 있는 새로운 게임을 실시간으로 만들어냅니다.
진정한 멀티플레이어: 여러 사람이 같은 세상에서 놀 때, 서로의 행동이 서로의 화면에 정확하게 반영됩니다. "내가 죽였는데 상대방은 안 죽은 척한다"는 같은 혼란이 사라집니다.
오래 가는 게임: 기존 AI 는 몇 분만 지나도 세상이 엉망이 되었지만, 이 방식은 지도라는 기준이 있기 때문에 몇 시간, 며칠을 놀아도 게임의 구조가 무너지지 않습니다.

📝 한 줄 요약

"멀티젠은 AI 게임에 '공유된 지도'와 '메모장'을 달아주어, 사용자가 직접 게임을 설계할 수 있게 하고, 여러 명이 함께 놀 때 서로의 시선이 완벽하게 일치하도록 만든 혁신적인 기술입니다."

이 기술은 앞으로 우리가 만드는 게임이 단순히 AI 가 무작위로 만들어내는 것이 아니라, 우리가 원하는 대로 설계되고, 모두가 함께 공유할 수 있는 진정한 가상 세계로 발전할 수 있는 토대가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

MultiGen: 확산 기반 게임 엔진을 위한 편집 가능한 멀티플레이어 월드 레벨 디자인 기술 요약

이 논문은 MultiGen이라는 새로운 아키텍처를 제안하며, 기존 확산 기반 비디오 월드 모델의 한계를 극복하고 편집 가능한 멀티플레이어 환경을 가능하게 하는 기술을 소개합니다.

1. 문제 정의 (Problem)

기존의 비디오 월드 모델 (Video World Models) 은 상호작용성 측면에서 두 가지 주요한 한계를 가지고 있습니다.

사용자 제어 및 재현성 부족: 현재 시스템은 대부분 암시적 내부 상태 (implicit internal state) 만을 사용하여 환경을 생성합니다. 이로 인해 사용자가 환경의 구조를 사전에 명시하거나 편집하기 어렵고, 긴 시퀀스 (long rollouts) 동안 생성된 콘텐츠가 사용자 의도와 불일치하거나 재현하기 어렵습니다.
공유된 멀티플레이어 경험의 부재: 대부분의 모델은 단일 사용자 경험을 전제로 합니다. 여러 플레이어가 동일한 세계 상태 (underlying state) 를 기반으로 상호작용할 때, 각 플레이어의 관점 (viewpoint) 이 일관성을 유지하고 상호작용이 논리적으로 연결되는 것을 보장하기가 매우 어렵습니다.

2. 방법론 (Methodology)

MultiGen 은 기존 "다음 프레임 예측기 (next-frame predictor)" 방식에서 벗어나, **명시적인 외부 메모리 (Explicit External Memory)**를 시스템에 통합하고 생성 과정을 세 가지 모듈로 분해합니다.

핵심 아키텍처: 3 모듈 분해

메모리 모듈 (Memory Module):
- 모델의 컨텍스트 윈도우를 넘어선 **지속적인 상태 (Persistent State)**를 유지합니다.
- 지도 (Map, $M$ ): 2D 꼭짓점과 선분으로 구성된 상향식 (top-down) 레벨 레이아웃 (미니어처 맵) 을 저장합니다. 이는 정적이며 편집 가능한 외부 메모리 청사진 역할을 합니다.
- 플레이어 포즈 (Player Pose, $p_t$ ): 플레이어의 위치 $(x, y)$ 와 방향 $(\theta)$ 를 추적합니다.
- 이 모듈은 생성 과정에서 매 시점마다 지형 정보를 읽어와 생성의 기하학적 일관성을 보장합니다.
관측 모듈 (Observation Module):
- 입력: 최근의 시각적 컨텍스트 프레임, 메모리에서 추출한 기하학적 신호 (레이 트레이싱된 깊이/시차 정보), 그리고 다음 행동 (Action).
- 기능: 확산 모델 (Diffusion Model) 을 사용하여 다음 시각적 관측치 (First-person view) 를 생성합니다.
- 학습 전략: 훈련 시와 테스트 시의 불일치 (Train-Test Mismatch) 를 줄이기 위해 컨텍스트 프레임에 가우시안 노이즈를 추가하여 학습합니다 (Drift Robustness).
동역학 모듈 (Dynamics Module):
- 입력: 현재 행동, 기하학적 신호, 그리고 관측 모듈이 생성하는 중간 UNet 특징 (Features).
- 기능: 경량 트랜스포머 (Lightweight Transformer) 를 사용하여 플레이어의 포즈 업데이트 ( $\Delta p_t$ ) 를 예측합니다.
- 상태 갱신: 예측된 포즈를 기반으로 외부 메모리 상태를 업데이트하고, 다음 시점으로 진행합니다.

추론 과정 (Inference)

각 시점에서 시스템은 외부 메모리에서 기하학적 신호를 읽어옵니다.
관측 모듈이 행동과 메모리 정보를 기반으로 다음 프레임을 생성합니다.
동역학 모듈이 플레이어의 위치를 업데이트하여 메모리 상태를 갱신합니다.
이 과정이 반복되며 실시간 상호작용이 이루어집니다.

3. 주요 기여 (Key Contributions)

외부 메모리 기반 확산 월드 모델: 사용자 행동에 의해 업데이트되는 공유 상태 (Shared State) 를 도입하여, 장기적인 상호작용 일관성 (Long-horizon consistency) 을 확보했습니다.
모듈형 아키텍처 제안: 단일 모델 패러다임을 대체하여 메모리, 관측, 동역학 모듈로 분리함으로써, 읽기/쓰기가 가능한 외부 메모리 인터페이스를 제공했습니다.
두 가지 핵심 응용 분야 구현 및 평가:
- 편집 가능한 레벨 디자인: 사용자가 coarse 2D 맵 (미니어처 맵) 을 직접 설계하거나 수정하면, 모델이 이를 기반으로 일관된 1 인칭 시점의 게임 플레이를 생성합니다.
- 실시간 멀티플레이어 상호작용: 여러 플레이어가 동일한 외부 메모리를 공유하여, 한 플레이어의 행동이 다른 플레이어의 관측치에 즉각적이고 일관되게 반영되도록 합니다.

4. 실험 결과 (Results)

논문은 Doom 게임을 테스트베드로 사용하여 실험을 수행했습니다.

레벨 디자인 (Level Design):
- 사용자가 설계한 맵 구조에 따라 생성된 시뮬레이션은 기존 GameNGen (암시적 상태 기반) 보다 구조적 일관성이 훨씬 높았습니다.
- SSIM (구조적 유사성) 및 LPIPS (지각적 거리) 지표에서, 특히 긴 시퀀스 후반부 (128~196 스텝) 에서 구조적 드리프트 (Drift) 가 현저히 감소함을 보였습니다.
- 사용자가 맵을 수정하면 모델이 즉시 해당 구조를 따르는 새로운 시나리오를 생성할 수 있음을 입증했습니다.
멀티플레이어 (Multiplayer):
- 일관성 평가: 두 플레이어가 서로를 보거나 숨길 때의 상황 (Opponent-presence detection) 을 VLM(Vision-Language Model) 을 통해 평가했습니다.
- 성능: 외부 메모리를 사용하는 MultiGen 은 분할 화면 (Split-screen) 방식의 단일 네트워크 베이스라인보다 정확도 (Accuracy), 정밀도 (Precision), 재현율 (Recall) 모두에서 우수한 성능을 보였습니다. (예: 정확도 75.38% vs 65.31%).
- 확장성: 플레이어 수가 증가해도 모델 인터페이스를 변경할 필요 없이, 각 플레이어용 인스턴스를 추가하여 실행만 하면 되므로 실시간 (약 20 FPS) 멀티플레이어가 가능했습니다.

5. 의의 및 결론 (Significance & Conclusion)

MultiGen 은 생성형 게임 엔진 분야에서 중요한 전환점을 제시합니다.

제어 가능성의 혁신: 생성형 AI 가 단순히 영상을 만드는 것을 넘어, 사용자가 구조 (Structure) 를 직접 설계하고 편집할 수 있는 진정한 "게임 엔진"으로 진화할 수 있음을 보였습니다.
멀티플레이어의 실현: 암시적 상태에 의존하던 기존 방식의 한계를 넘어, 명시적 외부 메모리를 통해 다수의 에이전트가 논리적으로 일관된 공유 세계를 경험할 수 있는 길을 열었습니다.
미래 전망: 이 모듈식, 메모리 중심의 접근법은 더 제어 가능하고 확장 가능한 차세대 생성형 게임 엔진 및 상호작용형 시뮬레이션의 기초가 될 것으로 기대됩니다.

요약하자면, MultiGen 은 외부 메모리를 핵심으로 하여 사용자가 환경을 직접 디자인할 수 있고, 여러 플레이어가 일관된 세계 속에서 실시간으로 상호작용할 수 있는 새로운 차원의 확산 기반 게임 엔진을 제시한 연구입니다.

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines