Inference-time Physics Alignment of Video Generative Models with Latent World Models

이 논문은 잠재 세계 모델 (VJEPA-2) 을 보상 신호로 활용하여 추론 시 여러 생성 경로를 탐색하고 조정하는 'WMReward'를 제안함으로써, 기존 비디오 생성 모델의 물리 법칙 위반 문제를 해결하고 ICCV 2025 Perception Test PhysicsIQ 챌린지에서 1 위를 차지한 성과를 거두었음을 보여줍니다.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 "현실 같은" 비디오를 만드는 비밀: AI 가 물리 법칙을 배우는 방법

이 논문은 최신 AI 비디오 생성 모델들이 "보기는 좋지만, 물리 법칙을 무시하는" (예: 공이 바닥에 닿지 않고 둥둥 떠다니거나, 물체가 벽을 뚫고 지나가는) 문제를 해결한 방법을 소개합니다.

저희는 이 기술을 **'WMReward'**라고 부르며, 마치 "현실 세계의 전문가가 AI 의 작업을 실시간으로 점검하고 수정해 주는" 시스템이라고 생각하시면 됩니다.


1. 문제: AI 는 "드림"은 잘 꾸지만, "현실"은 모릅니다

최신 AI 비디오 모델들은 정말 아름다운 영상을 만들어냅니다. 하지만 이 모델들은 영화를 찍는 감독처럼 **"어떻게 보이는지"**는 잘 알지만, **"세상이 어떻게 돌아가는지 (물리 법칙)"**는 잘 모릅니다.

  • 결과: 공이 떨어질 때 튀지 않고 멈추거나, 물체가 서로 관통하는 등 어색한 장면들이 나옵니다.

2. 해결책: "잠재 세계 모델 (Latent World Model)"이라는 교감

연구팀은 AI 가 영상을 만들 때, 이미지 생성을 멈추고 "물리 법칙을 아는 전문가 (VJEPA-2)"에게 확인을 시키는 방식을 도입했습니다.

  • 비유: 요리사와 미식가
    • 요리사 (비디오 생성 AI): 맛있는 요리를 만들어냅니다. 하지만 맛을 잘 모릅니다.
    • 미식가 (잠재 세계 모델): 요리를 직접 만들지는 않지만, "이 요리는 물리 법칙에 맞지 않아. 소금이 너무 많거나, 불이 너무 세서 타버렸어"라고 정확하게 지적할 수 있는 전문가입니다.
    • WMReward: 이 미식가의 지적을 **점수 (Reward)**로 바꾸어, 요리사가 다시 요리를 만들 때 그 점수가 높은 방향으로 수정하게 유도합니다.

3. 어떻게 작동할까요? (3 단계 과정)

이 시스템은 AI 가 영상을 만들 때 두 가지 전략을 동시에 사용합니다.

① "예측 놀이" (Surprise Score)

미식가 (VJEPA-2) 는 AI 가 만든 영상 중 **지금까지 나온 장면 (과거)**을 보고 **"다음 장면은 이렇게 될 거야"**라고 예측합니다.

  • 만약 AI 가 만든 실제 다음 장면이 미식가의 예측과 다르면? → "어? 이거 물리 법칙에 어긋나는데?"라고 **놀라움 (Surprise)**을 느낍니다.
  • 놀라움이 클수록 점수가 낮아지고, 예측과 잘 맞을수록 점수가 높아집니다.

② "수정 가이드"와 "최고작 선별" (Guidance & Best-of-N)

AI 는 이 점수를 보고 두 가지 일을 합니다.

  1. 가이드 (Guidance): 미식가가 "여기는 물리 법칙에 맞지 않아"라고 지적하면, AI 는 그 방향으로 영상을 실시간으로 수정하며 그립니다. (나침반을 보고 방향을 잡는 것)
  2. 최고작 선별 (Best-of-N): AI 가 같은 조건으로 **여러 개의 영상 (예: 16 개)**을 먼저 만들어 봅니다. 그중에서 미식가가 가장 "물리 법칙을 잘 지킨 영상" 하나만 골라냅니다. (시험을 여러 번 보고 가장 높은 점수 받은 답안지 하나만 제출하는 것)

4. 성과: 물리 법칙의 신 (PhysicsIQ) 대회 1 위

이 방법을 적용하자 놀라운 결과가 나왔습니다.

  • 물리 법칙 테스트 (PhysicsIQ): AI 가 만든 영상이 물리 법칙을 얼마나 잘 지키는지 평가하는 대회에서 **1 위 (점수 62.64%)**를 차지했습니다. 기존 최고 기록보다 7% 이상이나 더 높았습니다.
  • 사람의 눈: 사람들이 직접 보고 평가한 결과에서도, "이게 더 현실적으로 보이네?"라는 반응이 훨씬 많았습니다.

5. 요약: 왜 이것이 중요한가요?

기존에는 AI 가 물리 법칙을 배우게 하려면 **처음부터 다시 학습 (재훈련)**시켜야 했습니다. 하지만 이 연구는 이미 만들어진 AI 가 영상을 만들 때, 실시간으로 전문가의 도움을 받아 수정하는 방식을 제안했습니다.

  • 핵심 메시지: AI 가 영상을 만들 때, **"현실 세계의 법칙을 아는 교감 (미식가)"**을 곁들여 실시간으로 점검하면, 훨씬 더 신뢰할 수 있고 자연스러운 비디오를 만들 수 있다는 것을 증명했습니다.

이제 AI 가 만든 영상은 단순히 "예쁜 그림"을 넘어, 우리가 사는 현실 세계와 같은 법칙을 따르는 진정한 "영화"가 될 수 있는 길을 열었습니다. 🎬✨