Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

이 논문은 모델 재학습 없이 추론 단계에서 정밀한 카메라 제어를 가능하게 하여 3D 및 4D 생성, 비디오 편집 등 다양한 작업에 적용 가능한 새로운 훈련 없는 프레임워크 'WorldForge'를 제안합니다.

Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'WorldForge(월드포지)'**라는 새로운 기술을 소개합니다. 쉽게 말해, "이미지나 짧은 영상 하나만 있으면, AI 가 마치 카메라를 들고 돌아다니며 새로운 3D 공간이나 움직이는 장면을 만들어내는 마법" 같은 기술입니다.

기존의 AI 영상 생성 기술은 "이런 장면을 만들어줘"라고 말만 하면 대충 만들어주기는 했지만, **"카메라를 왼쪽으로 180 도 돌리면서 찍어줘"**라고 구체적으로 지시하면 엉뚱한 결과가 나오거나 화면이 찌그러지는 문제가 있었습니다.

WorldForge 는 이 문제를 해결하기 위해 세 가지 핵심 비법을 사용하는데, 마치 유능한 영화 감독과 편집자가 AI 를 조종하는 방식과 비슷합니다.


🎬 WorldForge 의 핵심 비법 3 가지

1. 매 순간 수정하는 '리허설' (Intra-Step Recursive Refinement)

  • 비유: 그림을 그릴 때, 한 번에 다 그리는 게 아니라 연필로 대충 그린 뒤, 바로 지우개로 지우고 다시 그리는 과정을 반복하는 것과 같습니다.
  • 설명: AI 가 영상을 만들 때, 카메라가 움직여야 할 길 (궤적) 에서 조금이라도 벗어나면, 그 순간마다 "아, 여기는 원래 이랬어야지!"라고 바로잡아 줍니다. 마치 연필로 그림을 그리다가 틀린 부분을 바로 수정하듯, AI 가 만들어가는 과정 자체를 실시간으로 교정해서 카메라가 원하는 대로 움직이게 합니다.

2. '움직임'과 '모습'을 분리하는 필터 (Flow-Gated Latent Fusion)

  • 비유: 요리할 때 '재료의 맛'과 '요리하는 손놀림'을 구분하는 것과 같습니다.
    • 기존 방식은 카메라를 움직이게 하려다 보니, AI 가 "아, 카메라가 움직이니까 사람 얼굴도 같이 움직여야지!"라고 착각해서 얼굴이 찌그러지거나 변형되는 경우가 많았습니다.
    • WorldForge 는 **"이 부분은 움직여야 하는 부분 (움직임 채널), 저 부분은 그대로 있어야 할 부분 (모습 채널)"**을 정확히 구분합니다.
  • 설명: 카메라가 움직일 때, 배경이나 사물의 '모습'은 그대로 유지하면서 '움직임'만 정확하게 조절합니다. 그래서 카메라가 돌더라도 사람의 얼굴이 찌그러지지 않고 자연스러운 3D 공간이 만들어집니다.

3. '나쁜 길'과 '좋은 길'을 비교하는 나침반 (Dual-Path Self-Corrective Guidance)

  • 비유: 내비게이션이 길을 안내할 때, "이 길은 막혔으니 다른 길로 가자"라고 알려주는 것과 같습니다.
    • 카메라를 움직이게 하려고 강제로 지시하면 (Guided path), AI 가 혼란스러워해서 화면에 잡음이나 이상한 왜곡이 생길 수 있습니다.
    • 반면, 아무 지시 없이 AI 가 자유롭게 만든 영상 (Unguided path) 은 자연스럽지만 카메라가 원하는 대로 안 움직입니다.
  • 설명: WorldForge 는 이 두 가지 영상을 동시에 만들어봅니다. 그리고 **"자연스러운 영상 (좋은 품질) 에서, 카메라가 움직이는 방향 (원하는 길) 만 골라내서 합친다"**는 아이디어입니다. 이렇게 하면 카메라는 정확히 움직이면서도 화면은 깨끗하고 자연스러워집니다.

🌟 이 기술이 왜 특별한가요?

  1. 재교육 불필요 (Zero-Shot): 기존에 이 일을 하려면 AI 를 다시 공부시켜야 (Fine-tuning) 했지만, 이 기술은 이미 만들어진 AI 를 그대로 쓰면서 추가 학습 없이 바로 쓸 수 있습니다. 마치 새로운 운전 기술을 배우지 않고도 기존 차를 잘 몰 수 있게 해주는 '스마트 보조 장치' 같은 것입니다.
  2. 다양한 활용: 단순히 3D 장면을 만드는 것뿐만 아니라, 비디오 편집, 영상 안정화, 가상 의상 입기 등 다양한 영상 작업에 바로 적용할 수 있습니다.
  3. 높은 정확도: 카메라가 180 도나 360 도 회전하더라도, 화면이 찢어지거나 왜곡되지 않고 마치 실제 카메라로 찍은 것처럼 자연스럽게 만들어냅니다.

💡 한 줄 요약

"WorldForge 는 AI 가 영상을 만들 때, 카메라가 원하는 대로 정확히 움직이면서도 화면이 망가지지 않도록 도와주는 '초능력의 편집자'입니다. 별도의 학습 없이 바로 쓸 수 있어, 앞으로 우리가 만드는 모든 3D/4D 영상의 질을 한 단계 업그레이드할 것입니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →