InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

이 논문은 기존 비디오 기반 세계 모델의 지연 시간을 극복하고, 명시적 3D 앵커와 암시적 공간 기억을 통해 다중 뷰 일관성을 유지하면서 소비자급 GPU 에서 실시간으로 작동하는 오픈소스 생성 프레임 모델 'InSpatio-WorldFM'을 제안합니다.

InSpatio Team, Xiaoyu Zhang, Weihong Pan, Zhichao Ye, Jialin Liu, Yipeng Chen, Nan Wang, Xiaojun Xiang, Weijian Xie, Yifu Wang, Haoyu Ji, Siji Pan, Zhewen Le, Jing Guo, Xianbin Liu, Donghui Shen, Ziqiang Zhao, Haomin Liu, Guofeng Zhang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 "인스파티오-월드 FM": 실시간 3D 세계를 그리는 마법 같은 카메라

이 논문은 **'InSpatio-WorldFM(인스파티오-월드 FM)'**이라는 새로운 인공지능 기술을 소개합니다. 쉽게 말해, **"사용자가 조이스틱으로 움직일 때마다, AI 가 실시간으로 3D 공간을 그려주는 기술"**입니다.

기존의 기술들이 가진 문제점과 이 기술이 어떻게 해결했는지, 일상적인 비유로 설명해 드릴게요.


1. 기존 기술의 문제: "느린 영화 제작자" vs "빠른 화가"

기존의 AI 세계 모델들은 대부분 비디오 생성 방식을 사용했습니다.

  • 비유: 마치 영화 제작자처럼, 1 초의 영상을 만들려면 앞뒤로 10 초 분량의 장면을 다 계산해서 이어붙여야 합니다.
  • 문제점:
    1. 지연 시간 (Lag): 사용자가 화면을 돌리면 AI 가 "아, 이제 다음 장면을 그려야지"라고 생각하며 모든 프레임을 계산해야 하므로, 반응이 늦습니다. (영화 촬영처럼 시간이 걸림)
    2. 오류 누적: 장면을 이어붙이다 보면, 시간이 지날수록 건물이 휘어지거나 바닥이 사라지는 등 공간감이 깨지는 현상이 발생합니다. (연속된 영화처럼 오래 보면 어색해짐)

2. InSpatio-WorldFM 의 혁신: "순간포착 화가"

이 새로운 모델은 비디오가 아니라 **단일 프레임 (한 장의 그림)**을 기반으로 작동합니다.

  • 비유: 이제 AI 는 **영화 제작자가 아니라, '순간포착 화가'**가 되었습니다. 사용자가 조이스틱을 움직이는 순간, AI 는 그 위치에서 한 장의 그림을 바로 그려냅니다.
  • 장점:
    • 초고속 반응: 앞뒤 장면을 계산할 필요가 없으므로, 사용자가 움직이는 대로 그림이 즉시 나옵니다. (게임처럼 즉각적)
    • 오류 없음: 매번 새로운 그림을 그릴 때, **3D 공간의 기준점 (앵커)**을 다시 확인하므로 건물이 휘어지거나 사라지지 않습니다.

3. 어떻게 이렇게 똑똑하게 그릴까? (핵심 기술 3 가지)

이 AI 가 한 장의 그림을 그리면서도 3D 공간감을 유지하는 비법은 세 가지입니다.

① "나침반과 사진첩" (3D 앵커 + 공간 기억)

AI 는 그림을 그릴 때 두 가지 정보를 동시에 봅니다.

  • 3D 앵커 (나침반): "이곳은 3 차원 공간의 어디인가?"를 알려주는 점 구름 (Point Cloud) 데이터입니다. 건물의 뼈대 역할을 하여, AI 가 방향을 잃지 않게 합니다.
  • 공간 기억 (사진첩): 이전에 본 장면의 참고 사진입니다. "저기 있던 나무가 여기에도 있어야 해"라고 기억해내어 디테일을 유지합니다.
  • 비유: 건축가가 건물을 지을 때, **설계도 (나침반)**를 보며 **이전 사진 (사진첩)**을 참고하여 정확한 위치와 디테일을 맞추는 것과 같습니다.

② "세 단계 훈련 과정" (학습의 비결)

이 AI 는 한 번에 완성된 것이 아니라, 3 단계를 거쳐 성장했습니다.

  1. 1 단계 (재미있는 그림 그리기): 먼저 일반적인 그림을 잘 그리는 AI 를 만듭니다.
  2. 2 단계 (공간 감각 익히기): 이제 "이 그림을 이렇게 회전시켜서 그려줘"라고 명령을 내리며, 3D 공간감을 익힙니다.
  3. 3 단계 (속도 훈련): 마지막으로, 복잡한 계산을 줄여서 순간적으로 그림을 그릴 수 있도록 속도를 높입니다. (소위 '증류' 기술 사용)

③ "실시간 게임 엔진" (소비자용 그래픽카드에서도 작동)

이 기술은 무거운 서버가 아니라, 일반 게이머가 쓰는 RTX 4090 같은 그래픽카드에서도 실시간으로 돌아갑니다.

  • 비유: 고가의 슈퍼컴퓨터 없이도, 집 컴퓨터에서 3D 게임을 하듯이 AI 가 만들어낸 세상을 실시간으로 돌아다닐 수 있습니다.

4. 요약: 왜 이것이 중요한가요?

이 기술은 가상 현실 (VR), 게임, 로봇의 눈 등에 혁신을 가져옵니다.

  • 기존: "잠시만 기다려요, 장면을 계산 중입니다..." (지연 발생, 공간 왜곡)
  • InSpatio-WorldFM: "네, 여기가 어디든 바로 보여드릴게요!" (즉각 반응, 완벽한 3D 공간)

한 줄 요약:

"이 AI 는 3D 공간의 나침반과 기억력을 바탕으로, 사용자가 움직이는 대로 한 장씩 바로바로 그림을 그려주는 '초고속 3D 화가'입니다."

이 기술이 상용화되면, 우리가 가상 세계를 여행할 때 더 이상 끊김이나 어색함 없이, 마치 현실처럼 자연스럽게 탐험할 수 있게 될 것입니다.