Target-Aware Video Diffusion Models

이 논문은 입력 이미지의 특정 객체 (타겟) 와 텍스트 프롬프트로 정의된 동작을 기반으로 인간과 객체의 상호작용을 정확하게 생성하는 '타겟 인식 비디오 확산 모델'을 제안하며, 이를 통해 3D 상호작용 모션 합성 및 장기 비디오 콘텐츠 제작 등 다양한 응용 분야에서의 성능을 입증했습니다.

Taeksoo Kim, Hanbyul Joo

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 "타겟 어웨어 비디오" (Target-Aware Video): 원하는 물건을 정확히 집어주는 AI 영상 제작기

이 논문은 **"원하는 물건을 정확히 집어주거나 조작하는 영상을 AI 가 자동으로 만들어주는 기술"**을 소개합니다. 기존 AI 영상 생성 기술이 "사람이 물건을 집는다"라고만 말하면, AI 가 임의의 물건을 집는 영상을 만들어냈다면, 이 새로운 기술은 **"저기 있는 (마스크로 표시된) 그 컵을 집어라"**라고 지시할 때, 정확히 그 컵을 집는 영상을 만들어냅니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.


1. 문제: "눈이 먼" 영화 감독 (기존 AI)

기존의 AI 영상 생성 모델은 훌륭한 영화 감독이지만, 지시사항을 잘 못 듣는 경우가 많습니다.

  • 상황: 감독에게 "사람이 테이블에 있는 빨간 컵을 집어"라고 지시합니다.
  • 기존 AI 의 반응: "네, 알겠습니다!" 하고는 사람 손에 파란 컵을 쥐거나, 아예 컵이 없는 빈 손으로 집는 시늉을 합니다. 혹은 화면에 없는 컵을 만들어내기도 합니다.
  • 원인: AI 는 텍스트만 보고 상상하기 때문에, 화면에 실제로 어떤 물체가 있는지, 그 물체가 어디에 있는지 정확히 구분하지 못합니다.

2. 해결책: "눈가리개"와 "특별한 암호" (이 논문의 기술)

이 논문은 AI 감독에게 두 가지 도구를 주어 문제를 해결합니다.

① 눈가리개 (세그멘테이션 마스크)

  • 비유: 감독에게 "이 물체가 중요해"라고 말하기보다, 그 물체 위에 초록색 스티커 (마스크) 를 붙여주는 것입니다.
  • 효과: AI 는 이제 "아, 저 초록색 스티커가 붙은 물체가 '목표물'이구나"라고 정확히 알 수 있습니다. 사용자가 마우스로 한 번 클릭만 하면 (또는 자동으로) 그 물체를 표시할 수 있습니다.

② 특별 암호 ([TGT] 토큰)

  • 비유: 대본 (텍스트 프롬프트) 에 **"그 사람, [목표] 물건을 집어"**라고 특별한 암호를 넣는 것입니다.
  • 효과: AI 는 이 [목표] 라는 암호를 보고, "아! 이 암호는 저 초록색 스티커가 붙은 물체를 가리키는 거야!"라고 텍스트와 화면을 연결합니다.

3. 핵심 기술: "주목력 훈련" (크로스 어텐션 손실)

AI 를 단순히 마스크를 입력받는다고 해서 바로 잘하는 게 아닙니다. AI 는 어디를 봐야 할지 집중하는 법을 다시 배워야 합니다.

  • 훈련 과정: 연구자들은 AI 가 "목표"라는 암호를 볼 때, 정작 초록색 스티커가 붙은 부분만 집중해서 보도록 강하게 훈련시켰습니다.
  • 비유: 마치 학생에게 "이 문제의 정답은 A 지점에 있다"라고 가르치면서, A 지점만 볼 수 있도록 눈가리개를 씌우고 집중력을 기르게 하는 것과 같습니다.
  • 결과: 이제 AI 는 "컵을 집어"라고 할 때, 화면에 있는 컵이 아닌 다른 물건을 집는 실수를 하지 않고, 정확히 표시된 컵을 집는 영상을 만들어냅니다.

4. 이 기술로 무엇을 할 수 있을까요? (실생활 적용)

이 기술은 단순히 영상만 만드는 게 아니라, 실제 로봇이나 게임 캐릭터를 조종하는 데도 쓰입니다.

  • 로봇의 눈과 손 (3D 동작 합성):
    • AI 가 만든 영상을 보고 로봇이 "아, 사람이 저 컵을 어떻게 잡았지?"라고 배웁니다.
    • 비유: 로봇이 AI 가 만든 영상을 보고 "모방 학습"을 통해, 실제 물리 법칙을 지키면서 컵을 잡는 동작을 스스로 익히는 것입니다.
  • 게임/영상 제작 (장기 영상 만들기):
    • 게임 캐릭터가 복잡한 미로 속에서 "저기 있는 열쇠를 찾아서 문을 열어라"라고 지시받으면, AI 가 캐릭터가 열쇠를 정확히 찾아가는 긴 영상을 만들어줍니다.
    • 비유: 게임 개발자가 매번 캐릭터의 손동작을 일일이 조절할 필요 없이, "저기 저 물건을 집어"라고만 하면 AI 가 알아서 자연스러운 동작을 만들어주는 것입니다.

5. 요약: 왜 이것이 혁신적인가요?

  • 기존: "사람이 물건을 집는다" (무엇을 집는지 모름) → AI 가 임의로 결정.
  • 이 기술: "사람이 저기 있는 (마스크로 표시된) 그 물건을 집는다" → AI 가 정확히 그 물건을 집음.

이 기술은 AI 가 단순히 영상을 만드는 것을 넘어, 우리가 원하는 대로 세상을 조작하고 계획하는 '지능형 비서' 역할을 할 수 있는 첫걸음입니다. 마치 AI 가 "이거만 해"라고 지시하면, 눈이 먼 상태에서 엉뚱한 일을 하던 과거와 달리, 정확히 손이 닿아야 할 곳을 보고 행동하는 똑똑한 도우미가 된 것입니다.