DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

이 논문은 다중 객체의 정체성 유지와 다양한 수준의 모션 제어를 동시에 가능하게 하기 위해 조건 인식 3D 회전 위치 임베딩, 계층적 모션 주입 전략, 그리고 잠재 공간에서의 정체성 보상 학습을 도입한 'DreamVideo-Omni' 프레임워크를 제안합니다.

Yujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

드림비디오-오미 (DreamVideo-Omi): 여러 주인공이 함께 춤추는 마법의 영상 제작기

이 논문은 **"여러 명의 주인공을 한 화면에 등장시키고, 그들이 원하는 대로 움직이게 만드는 AI 영상 기술"**에 대한 이야기입니다. 기존 기술로는 한 명을 잘 만들면 다른 사람이 흐릿해지거나, 움직임을 지시하면 얼굴이 변해버리는 문제가 있었는데요. 이 연구는 그 모든 문제를 해결한 '완벽한 영화 감독 AI'를 소개합니다.

상상력을 발휘하여 이 기술을 쉽게 이해해 볼까요?


1. 기존 기술의 문제: "혼란스러운 무대"

기존의 AI 영상 제작기는 마치 연습이 덜 된 무대 연출가와 같았습니다.

  • 주인공이 사라집니다: "내 얼굴로 영상을 만들어줘"라고 하면, 영상 중간에 얼굴이 바뀌거나 흐릿해집니다. (정체성 훼손)
  • 움직임이 엉망입니다: "공을 차고 뛰어오라"고 지시하면, 공은 공대로, 사람은 사람대로 엉뚱한 곳으로 날아갑니다. (움직임 제어 실패)
  • 여러 명이 나오면 대소동: 두 명 이상의 인물이 나오면, 누가 누구인지 AI 가 헷갈려서 얼굴이 뒤섞이거나, 움직임을 서로 바꿔치기 합니다. (혼란)

2. 드림비디오-오미의 해결책: "완벽한 2 단계 훈련 시스템"

이 연구팀은 AI 를 2 단계에 걸쳐 훈련시켜서 이 문제를 해결했습니다.

1 단계: "정밀한 지시와 역할 분담" (Supervised Fine-Tuning)

이 단계는 AI 에게 **"누가, 어디서, 어떻게 움직여야 하는지"**를 아주 정확하게 가르치는 과정입니다.

  • 역할 배지 (Group & Role Embeddings):
    • 마치 무대 위에서 배우들에게 **"A 배우는 빨간 배지, B 배우는 파란 배지"**를 달아주는 것과 같습니다.
    • AI 는 이 배지를 보고 "아, 빨간 배지를 한 사람은 공을 차고, 파란 배지를 한 사람은 뛰어야 해"라고 명확히 구분합니다. 덕분에 여러 명이 나와도 서로 섞이지 않습니다.
  • 3D 지도 (Condition-aware 3D RoPE):
    • 영상 속의 시간, 공간, 그리고 다양한 지시사항 (얼굴, 움직임, 카메라) 을 하나의 정교한 3D 지도에 모두 표시합니다.
    • AI 는 이 지도를 보며 "이 시간은 이 얼굴, 이 공간은 이 움직임"이라고 혼란 없이 처리할 수 있게 됩니다.
  • 계층적 지시 (Hierarchical Motion Injection):
    • 단순히 "여기로 가"라고 말하는 게 아니라, 전체 무대 (배경) 에서부터 손가락 하나까지 세세하게 지시합니다.
    • 마치 감독이 "배경은 저렇게, 주인공은 저렇게, 손짓은 이렇게"라고 단계별로 지시하는 것과 같습니다.

2 단계: "인간 취향의 피드백" (Latent Identity Reinforcement Learning)

1 단계로 기본적인 지시를 배웠지만, 여전히 "얼굴이 너무 딱딱하게 붙어 있거나" "자연스러움이 부족할" 수 있습니다. 이때 2 단계 훈련이 나옵니다.

  • 비밀 심사위원 (Latent Identity Reward Model):
    • 기존에는 영상을 다 만들어서 (화면으로 출력해서) "얼굴이 닮았나?"를 확인했는데, 이 방식은 매우 느리고 비쌉니다.
    • 대신 이 연구팀은 **영상의 '잠재된 상태' (잠재 공간)**에서 바로 심사위원을 투입합니다.
    • 이 심사위원은 **"인간이 보기엔 이 얼굴이 자연스러운가?"**를 평가합니다. "너무 딱딱하게 붙어 있네 (복사 붙여넣기 느낌)"라고 지적하면 AI 는 다시 고쳐서 다시 제출합니다.
    • 이 과정을 반복하면 AI 는 인간이 좋아하는 자연스러운 표정과 움직임을 배우게 됩니다.

3. 놀라운 결과: "예상치 못한 능력" (Emergent Capabilities)

이 훈련을 마친 AI 는 원래 가르치지 않았던 능력도 스스로 터득했습니다.

  • 이미지 → 영상 (Image-to-Video): 텍스트 없이도, 첫 번째 장면을 보여주기만 하면 그 장면이 이어지는 영상을 만들어냅니다. 마치 첫 장면을 보고 "다음엔 이렇게 흘러가겠구나"라고 상상하는 것과 같습니다.
  • 한 장면으로 전체 제어: 첫 장면을 기준으로 움직임을 지시하면, 그 움직임이 전체 영상에 자연스럽게 적용됩니다.

4. 왜 이 기술이 중요한가요? (핵심 요약)

이 기술은 **드림오미 벤치 (DreamOmni Bench)**라는 새로운 시험지를 만들어서 검증되었습니다.

  • 정확한 얼굴: 여러 명이 나와도 각자의 얼굴이 흐트러지지 않습니다.
  • 정교한 움직임: 공을 차거나, 춤을 추거나, 카메라가 움직이는 것까지 정밀하게 제어됩니다.
  • 자연스러움: 로봇처럼 딱딱하지 않고, 인간이 보기에 자연스러운 영상을 만들어냅니다.

마치면서

드림비디오-오미는 마치 완벽한 영화 감독과 같습니다.
배우들 (주인공들) 의 얼굴을 기억하면서도, 그들이 연기하는 모든 동작 (움직임) 을 지시할 수 있고, 더 나아가 "이 장면은 이렇게 연출해줘"라고 하면 인간이 좋아하는 자연스러운 결과물을 만들어냅니다.

이 기술은 앞으로 개인 맞춤형 애니메이션, 게임, 영화 제작 등 다양한 분야에서 우리가 상상하던 영상을 실제로 만들어내는 데 큰 역할을 할 것입니다.