Beyond Pixel Histories: World Models with Persistent 3D State

이 논문은 기존 비디오 생성 모델의 3D 일관성과 공간 기억 한계를 해결하기 위해 잠재 3D 장면의 진화를 시뮬레이션하여 장기적인 안정성과 3D 공간 기반 정밀 제어를 가능하게 하는 새로운 세계 모델 'PERSIST'를 제안합니다.

Samuel Garcin, Thomas Walker, Steven McDonagh, Tim Pearce, Hakan Bilen, Tianyu He, Kaixin Wang, Jiang Bian

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 기술의 문제점: "기억력이 짧은 사진첩"

지금까지의 인터랙티브 비디오 생성 AI 들은 마치 매우 짧은 기억력을 가진 사진가와 같습니다.

  • 작동 방식: 사용자의 행동에 반응해 다음 장면을 찍습니다. 하지만 이 사진가는 최근 2~3 초 동안 찍은 사진들만 기억할 수 있습니다.
  • 문제점:
    • 기억 상실: 사용자가 뒤로 돌아서 다시 앞을 보면, "아, 저기 있던 나무가 어디로 갔지?"라고 잊어버립니다.
    • 일관성 부족: 같은 장소를 다시 가더라도 나무 모양이 달라지거나, 건물이 사라지는 등 공간의 일관성이 깨집니다.
    • 비유: 마치 망가진 사진첩을 계속 넘기면서, 앞페이지의 내용을 잊어버리고 새로운 사진을 찍는 것과 같습니다. 시간이 지날수록 세계가 엉망이 됩니다.

2. PERSIST 의 혁신: "완벽한 3D 지도와 건축가"

PERSIST 는 이 문제를 해결하기 위해 세상 자체를 3D 로 기억하는 방식을 도입했습니다.

  • 핵심 아이디어: 화면 (픽셀) 을 기억하는 대신, **가상 세계의 3D 지도 (잠재 공간)**를 업데이트하고 기억합니다.

  • 작동 방식:

    1. 3D 지도 업데이트 (World Model): 사용자가 움직일 때마다, AI 는 보이지 않는 곳까지 포함한 3D 세계의 상태를 업데이트합니다. (예: "내가 왼쪽으로 갔으니, 오른쪽 벽 뒤에 있는 나무도 여전히 거기 있겠지.")
    2. 카메라 위치 추적 (Camera Model): 사용자의 시점 (카메라) 이 어디를 보고 있는지 정확히 파악합니다.
    3. 그림 그리기 (Renderer): 3D 지도에서 현재 카메라가 보는 부분만 가져와서 화면 (픽셀) 으로 그려냅니다.
  • 비유:

    • 기존 AI 는 사진만 보고 다음 장면을 상상합니다.
    • PERSIST 는 **완벽한 3D 건축도면 (지도)**을 가지고 있습니다. 사용자가 어디로 가든, 그 도면 위에 있는 모든 사물 (나무, 돌, 건물) 의 위치와 모양이 변하지 않고 유지됩니다. 사용자가 돌아서 다시 보면, 도면에서 그 부분을 다시 꺼내서 그려주기 때문에 어떤 각도에서도 똑같은 세계가 보입니다.

3. PERSIST 가 가져온 놀라운 변화

이 방식 덕분에 다음과 같은 마법 같은 일들이 가능해졌습니다.

  • 오래된 기억 (Spatial Memory): 수천 초가 지나도, 사용자가 처음 봤던 장소를 다시 방문하면 정확히 같은 모습으로 기억해냅니다. (기존 모델은 시간이 지나면 기억이 흐려져서 사라집니다.)
  • 보이지 않는 곳의 변화 (Off-screen Dynamics): 사용자가 보고 있지 않는 곳에서도 세계는 살아 움직입니다.
    • 예시: 사용자가 동굴을 빠져나와서 뒤돌아보면, 동굴 안에서는 물이 차오르는 과정이 이미 일어나고 있을 수 있습니다. PERSIST 는 사용자가 보지 않아도 그 3D 세계가 계속 진화하도록 만듭니다.
  • 세계 수정 (World Editing): 사용자가 게임 도중 "저기 나무를 없애고 꽃을 심어줘"라고 하면, AI 는 3D 지도의 나무를 지우고 꽃을 심은 뒤, 그 변화를 화면에 자연스럽게 반영합니다. 기존 방식은 화면을 수정하는 것이라 어색했지만, PERSIST 는 세계의 구조를 바꾸는 것이므로 매우 자연스럽습니다.

4. 요약: 왜 이것이 중요한가요?

이 연구는 "화면을 만드는 것"에서 "세계를 만드는 것"으로 패러다임을 바꿨습니다.

  • 기존: "이전 화면을 보고 다음 화면을 그린다." (기억이 짧고 일관성이 깨짐)
  • PERSIST: "가상의 3D 세계를 유지하고, 그 세계를 카메라로 비추어 화면을 만든다." (기억이 길고, 공간적 일관성이 완벽함)

이 기술은 앞으로 가상 현실 (VR) 게임, 디지털 트윈 (실제 세계의 가상 복제), 그리고 로봇이 현실 세계를 학습하는 훈련 등에 혁신적인 변화를 가져올 것으로 기대됩니다. 마치 우리가 꿈꾸던 "끝없이 이어지고, 기억하며, 살아 숨 쉬는 가상 세계"를 처음으로 가능하게 한 기술이라고 할 수 있습니다.