Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

이 논문은 양방향 생성 경로의 불일치로 인한 시간적 단절을 해결하기 위해 순방향 경로의 운동 잔차를 역방향 경로에 증류하는 '운동 우선 증류 (MPD)' 기법을 제안하여, 추가 학습 없이도 일관된 시간적 연속성을 가진 이미지-비디오 생성 인비트위닝 결과를 도출합니다.

Wooseok Jeon, Seunghyun Shin, Dongmin Shin, Hae-Gon Jeon

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 두 장의 사진 사이를 자연스럽게 이어주는 '마법' 기술

이 논문은 **"Generative Inbetweening(생성적 중간 프레임 생성)"**이라는 어려운 문제를 해결한 새로운 방법을 소개합니다. 쉽게 말해, 시작 사진과 끝 사진만 주어졌을 때, 그 사이를 자연스럽게 이어주는 비디오를 만들어내는 기술입니다.

기존의 AI 기술들은 두 장의 사진을 이어줄 때 종종 "유령"이 나타나거나, 물체가 뒤로 걷는 기이한 현상이 발생했습니다. 이 논문은 그 원인을 **'운동 방향의 충돌'**이라고 진단하고, 이를 해결하는 **'운동 우선순위 증류 (Motion Prior Distillation)'**라는 새로운 기술을 제안했습니다.

아래는 이 기술의 핵심을 일상적인 비유로 설명한 것입니다.


1. 문제: 두 명의 나침반이 서로 다른 방향을 가리킬 때 🧭

상상해 보세요. **시작점 (A)**에서 **도착점 (B)**으로 가는 길을 그려야 합니다.

  • 기존 방식 (Time Reversal Sampling):
    • A 에서 출발하는 길잡이 (Forward) 는 "A 에서 B 로 가자!"라고 말합니다.
    • B 에서 출발하는 길잡이 (Backward) 는 "B 에서 A 로 거꾸로 가자!"라고 말합니다. (AI 는 원래 앞으로 가는 영상을 학습했기 때문에, 뒤로 갈 때 앞을 보고 가는 버릇이 있습니다.)
    • 결과: 두 길잡이가 서로 다른 방향으로 가자고 다투면, 중간에 있는 사람은 혼란에 빠집니다. 물체가 좌우로 흔들리거나 (유령 현상), 갑자기 사라지거나, 심지어 거꾸로 걷는 기괴한 영상이 만들어집니다.

2. 해결책: 한 명의 '리더'에게만 집중하라 🎤

이 논문이 제안한 **MPD(Motion Prior Distillation)**는 아주 단순하지만 강력한 아이디어를 사용합니다.

"B 에서 오는 길잡이 (Backward) 가 혼란을 일으키지 않게, A 에서 오는 길잡이 (Forward) 의 '운동 패턴'을 그대로 복사해서 B 길잡이에게 주자!"

🏃‍♂️ 비유: "댄스 연습"

  • 상황: 춤을 추는 두 사람 (시작과 끝) 이 있습니다.
  • 기존 방식: 두 사람이 각자 춤을 추다가 중간에서 합쳐지려니 발이 꼬이고, 동작이 어색해집니다.
  • 이 논문의 방식 (MPD):
    1. 먼저 **시작하는 사람 (A)**이 춤을 추는 모습을 자세히 관찰합니다. (어떻게 발을 옮기고, 손을 흔드는지)
    2. 이 **춤 동작 (운동 잔여물, Motion Residual)**을 기록합니다.
    3. 이제 **끝나는 사람 (B)**이 춤을 출 때, B 자신의 원래 의도 (B 에서 A 로 거꾸로 가는 것) 는 잊어버리게 합니다.
    4. 대신, A 가 추던 춤 동작을 거꾸로 뒤집어서 B 가 따라 하게 합니다.
    5. 결과: 두 사람이 서로 다른 춤을 추는 게 아니라, **하나의 춤 (A 의 춤)**을 거꾸로 따라 하는 것처럼 자연스럽게 이어집니다.

3. 핵심 기술: '운동 잔여물'을 증류하다 🧪

이 기술의 핵심은 **'증류 (Distillation)'**라는 단어에 있습니다.

  • AI 가 영상을 만들 때, 처음에는 거친 그림을 그리고 점점 디테일을 추가합니다.
  • 이 논문은 초반 단계에서 시작 프레임 (A) 이 만들어낸 **'움직임의 흔적 (잔여물)'**을 추출합니다.
  • 그 흔적을 끝 프레임 (B) 을 위한 경로에 주입합니다.
  • 마치 커피를 추출할 때 (증류), 가장 향긋한 향만 뽑아내어 다른 컵에 섞는 것처럼, 혼란스러운 'B 의 방향성'을 제거하고 'A 의 움직임'만 깔끔하게 전달해 주는 것입니다.

4. 왜 이것이 중요한가요? 🌟

  • 유령 현상 제거: 물체가 중간에 두 개로 나뉘거나 사라지는 일이 사라집니다.
  • 자연스러운 흐름: 자동차가 앞으로 가는 장면이든, 사람이 춤추는 장면이든, 거꾸로 재생되는 듯한 어색함이 사라집니다.
  • 추가 학습 불필요: 거대한 AI 모델을 다시 훈련시킬 필요 없이, **생성할 때 (Inference)**만 이 방식을 적용하면 됩니다. (기존 모델을 그대로 쓸 수 있음)

5. 결론: 두 장의 사진을 하나로 잇는 '매끄러운 다리' 🌉

이 연구는 **"시작과 끝이 정해져 있을 때, 그 사이를 어떻게 자연스럽게 채울까?"**라는 질문에 대해, **"한쪽의 움직임 패턴을 다른 쪽에 완벽하게 이식하자"**는 해답을 제시했습니다.

기존의 기술이 두 개의 서로 다른 목소리를 섞어 소음만 냈다면, 이 기술은 **하나의 명확한 목소리 (시작 프레임의 운동 패턴)**를 거꾸로 들려주어, 마치 원래부터 하나의 영상이었던 것처럼 매끄러운 중간 프레임을 만들어냅니다.

이제 AI 는 두 장의 사진 사이를 단순히 이어붙이는 것이 아니라, 자연스러운 이야기를 만들어내는 마술사가 되었습니다. 🎩✨

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →