DreamWorld: Unified World Modeling in Video Generation

이 논문은 물리 상식, 3D 기하학, 시간적 일관성 등 다양한 세계 지식을 통합하여 비디오 생성의 일관성을 획기적으로 개선한 'DreamWorld' 프레임워크와 이를 위한 학습 및 추론 기법을 제안합니다.

Boming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "예쁜 그림" vs "현실적인 세계"

기존의 비디오 생성 AI 들은 마치 ** talented 하지만 경험이 없는 화가**와 같습니다.

  • 기존 AI: "사과가 떨어지는 장면을 그려줘"라고 하면, 사과를 그릴 수는 있지만 중력을 무시하고 사과가 위로 날아가거나, 사과가 벽을 뚫고 지나가는 어색한 장면을 만들기도 합니다. 겉모습은 예쁘지만, 세상의 이치 (물리 법칙, 3D 공간, 시간의 흐름) 를 모릅니다.
  • 기존 해결책의 한계: 연구자들은 이미 잘 훈련된 전문가들 (물리 전문가, 3D 전문가, 의미 전문가) 의 지식을 하나씩 가져와서 AI 에게 주입하려 했습니다. 하지만 서로 다른 전문가들의 지식을 동시에 주입하면 AI 가 혼란을 겪어 (예: 물리 법칙은 지키라는데, 3D 구조는 무시하라고 하니) 영상이 떨리거나 엉망이 되는 문제가 발생했습니다.

2. 해결책: DreamWorld (꿈의 세계)

저자들은 이 문제를 해결하기 위해 DreamWorld라는 새로운 방식을 만들었습니다. 이를 마치 '유능한 감독'이 '배우'를 가르치는 과정으로 비유해 볼 수 있습니다.

🎬 비유: 유능한 감독과 배우

  • 배우 (기존 AI): 연기 실력은 좋지만, 대본 (프롬프트) 만 보고 즉흥적으로 연기합니다.
  • 새로운 감독 (DreamWorld): 이 배우에게 세 가지 전문가 어시스턴트를 붙여줍니다.
    1. 물리 운동 코치 (Optical Flow): 사물이 어떻게 움직여야 자연스러운지 가르칩니다. (예: 물이 흐르는 방향, 바람에 흔들리는 나뭇잎)
    2. 공간 건축가 (VGGT): 사물이 3D 공간에서 어떻게 배치되어야 하는지 가르칩니다. (예: 의자가 바닥에 놓여야 함, 벽 뒤에 숨은 사람은 안 보임)
    3. 의미 해석자 (DINOv2): 사물의 의미와 관계를 이해하게 합니다. (예: '고양이'는 '의자' 위에 앉을 수 있지만 '식탁' 위를 뛰어다니면 안 됨)

이제 배우는 이 세 명의 어시스턴트와 함께 연습하며, 단순히 그림을 그리는 것이 아니라 세상의 법칙을 따르는 연기를 하게 됩니다.

3. 핵심 기술: 혼란을 막는 두 가지 비법

여러 전문가의 지식을 동시에 주입하면 배우가 너무 혼란스러워할 수 있습니다. 이를 해결하기 위해 두 가지 특별한 훈련법을 썼습니다.

🍯 비법 1: "점진적인 훈련" (Consistent Constraint Annealing - CCA)

  • 상황: 처음부터 모든 전문가의 지식을 동시에 주면 배우가 당황해서 엉망이 됩니다.
  • 해결: CCA 는 마치 '점진적으로 강도를 높이는 훈련'과 같습니다.
    • 초반: AI 가 먼저 예쁜 영상을 그리는 데 집중하게 합니다. (세상의 법칙은 조금만 알려줌)
    • 후반: 점점 세상의 법칙 (물리, 공간 등) 을 더 엄격하게 요구합니다.
    • 결과: AI 는 처음에는 자유롭게 그림을 그리다가, 나중에는 세상의 법칙을 자연스럽게 내면화하게 되어, 떨림 없이 안정적이고 현실적인 영상을 만들게 됩니다.

🧭 비법 2: "내부 나침반" (Multi-Source Inner-Guidance)

  • 상황: 영상을 만들 때, AI 가 스스로 "이건 물리 법칙에 어긋나네?"라고 생각할 수 있어야 합니다.
  • 해결: 내부 나침반은 AI 가 영상을 만들면서 스스로 예측한 지식 (예: 물이 아래로 떨어질 것임) 을 다시 확인하게 합니다.
    • 만약 AI 가 물이 위로 올라가는 장면을 그리려 하면, 이 나침반이 "아니야, 물은 아래로 떨어져!"라고 수정해 줍니다.
    • 이를 통해 실제 세계의 법칙을 철저히 지키는 영상이 만들어집니다.

4. 결과: 얼마나 좋아졌을까?

이 새로운 방식을 적용한 DreamWorld 는 기존 최고의 AI 들보다 훨씬 뛰어난 성과를 보였습니다.

  • VBench (비디오 평가 기준): 2.26 점이나 더 높은 점수를 받았습니다.
  • 현실감: 사과가 떨어질 때 물리 법칙을 지키고, 고양이가 의자에 앉을 때 3D 공간감이 살아있습니다.
  • 안정성: 영상이 깜빡거리거나 (flickering) 기괴하게 왜곡되는 현상이 크게 줄었습니다.

📝 한 줄 요약

DreamWorld는 비디오 생성 AI 에게 물리 법칙, 3D 공간, 의미를 가르치는 '유능한 어시스턴트 팀'을 붙여주고, 점진적인 훈련스스로 수정하는 나침반을 통해 AI 가 단순히 예쁜 그림이 아니라, 실제 세계의 이치를 따르는 진짜 영화를 만들 수 있게 만든 혁신적인 기술입니다.

이 기술은 앞으로 우리가 상상하는 모든 장면을 현실처럼 믿을 수 있게 만들어 줄 것입니다. 🎥✨