Each language version is independently generated for its own context, not a direct translation.

🎬 두 장의 사진 사이를 자연스럽게 이어주는 '마법' 기술

이 논문은 **"Generative Inbetweening(생성적 중간 프레임 생성)"**이라는 어려운 문제를 해결한 새로운 방법을 소개합니다. 쉽게 말해, 시작 사진과 끝 사진만 주어졌을 때, 그 사이를 자연스럽게 이어주는 비디오를 만들어내는 기술입니다.

기존의 AI 기술들은 두 장의 사진을 이어줄 때 종종 "유령"이 나타나거나, 물체가 뒤로 걷는 기이한 현상이 발생했습니다. 이 논문은 그 원인을 **'운동 방향의 충돌'**이라고 진단하고, 이를 해결하는 **'운동 우선순위 증류 (Motion Prior Distillation)'**라는 새로운 기술을 제안했습니다.

아래는 이 기술의 핵심을 일상적인 비유로 설명한 것입니다.

1. 문제: 두 명의 나침반이 서로 다른 방향을 가리킬 때 🧭

상상해 보세요. **시작점 (A)**에서 **도착점 (B)**으로 가는 길을 그려야 합니다.

기존 방식 (Time Reversal Sampling):
- A 에서 출발하는 길잡이 (Forward) 는 "A 에서 B 로 가자!"라고 말합니다.
- B 에서 출발하는 길잡이 (Backward) 는 "B 에서 A 로 거꾸로 가자!"라고 말합니다. (AI 는 원래 앞으로 가는 영상을 학습했기 때문에, 뒤로 갈 때 앞을 보고 가는 버릇이 있습니다.)
- 결과: 두 길잡이가 서로 다른 방향으로 가자고 다투면, 중간에 있는 사람은 혼란에 빠집니다. 물체가 좌우로 흔들리거나 (유령 현상), 갑자기 사라지거나, 심지어 거꾸로 걷는 기괴한 영상이 만들어집니다.

2. 해결책: 한 명의 '리더'에게만 집중하라 🎤

이 논문이 제안한 **MPD(Motion Prior Distillation)**는 아주 단순하지만 강력한 아이디어를 사용합니다.

"B 에서 오는 길잡이 (Backward) 가 혼란을 일으키지 않게, A 에서 오는 길잡이 (Forward) 의 '운동 패턴'을 그대로 복사해서 B 길잡이에게 주자!"

🏃‍♂️ 비유: "댄스 연습"

상황: 춤을 추는 두 사람 (시작과 끝) 이 있습니다.
기존 방식: 두 사람이 각자 춤을 추다가 중간에서 합쳐지려니 발이 꼬이고, 동작이 어색해집니다.
이 논문의 방식 (MPD):
1. 먼저 **시작하는 사람 (A)**이 춤을 추는 모습을 자세히 관찰합니다. (어떻게 발을 옮기고, 손을 흔드는지)
2. 이 **춤 동작 (운동 잔여물, Motion Residual)**을 기록합니다.
3. 이제 **끝나는 사람 (B)**이 춤을 출 때, B 자신의 원래 의도 (B 에서 A 로 거꾸로 가는 것) 는 잊어버리게 합니다.
4. 대신, A 가 추던 춤 동작을 거꾸로 뒤집어서 B 가 따라 하게 합니다.
5. 결과: 두 사람이 서로 다른 춤을 추는 게 아니라, **하나의 춤 (A 의 춤)**을 거꾸로 따라 하는 것처럼 자연스럽게 이어집니다.

3. 핵심 기술: '운동 잔여물'을 증류하다 🧪

이 기술의 핵심은 **'증류 (Distillation)'**라는 단어에 있습니다.

AI 가 영상을 만들 때, 처음에는 거친 그림을 그리고 점점 디테일을 추가합니다.
이 논문은 초반 단계에서 시작 프레임 (A) 이 만들어낸 **'움직임의 흔적 (잔여물)'**을 추출합니다.
그 흔적을 끝 프레임 (B) 을 위한 경로에 주입합니다.
마치 커피를 추출할 때 (증류), 가장 향긋한 향만 뽑아내어 다른 컵에 섞는 것처럼, 혼란스러운 'B 의 방향성'을 제거하고 'A 의 움직임'만 깔끔하게 전달해 주는 것입니다.

4. 왜 이것이 중요한가요? 🌟

유령 현상 제거: 물체가 중간에 두 개로 나뉘거나 사라지는 일이 사라집니다.
자연스러운 흐름: 자동차가 앞으로 가는 장면이든, 사람이 춤추는 장면이든, 거꾸로 재생되는 듯한 어색함이 사라집니다.
추가 학습 불필요: 거대한 AI 모델을 다시 훈련시킬 필요 없이, **생성할 때 (Inference)**만 이 방식을 적용하면 됩니다. (기존 모델을 그대로 쓸 수 있음)

5. 결론: 두 장의 사진을 하나로 잇는 '매끄러운 다리' 🌉

이 연구는 **"시작과 끝이 정해져 있을 때, 그 사이를 어떻게 자연스럽게 채울까?"**라는 질문에 대해, **"한쪽의 움직임 패턴을 다른 쪽에 완벽하게 이식하자"**는 해답을 제시했습니다.

기존의 기술이 두 개의 서로 다른 목소리를 섞어 소음만 냈다면, 이 기술은 **하나의 명확한 목소리 (시작 프레임의 운동 패턴)**를 거꾸로 들려주어, 마치 원래부터 하나의 영상이었던 것처럼 매끄러운 중간 프레임을 만들어냅니다.

이제 AI 는 두 장의 사진 사이를 단순히 이어붙이는 것이 아니라, 자연스러운 이야기를 만들어내는 마술사가 되었습니다. 🎩✨

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

이 논문은 생성적 인터비닝 (Generative Inbetweening) 작업, 즉 두 개의 키 프레임 (시작 프레임과 종료 프레임) 사이에 의미 있고 자연스러운 중간 프레임을 생성하는 문제를 다룹니다. 최근 이미지 - 비디오 (I2V) 확산 모델의 발전으로 인해 단일 프레임에서 비디오를 생성하는 것은 가능해졌으나, 시작과 종료라는 이중 제약 (Dual-constraint) 하에서 비디오를 생성하는 것은 여전히 난제입니다.

기존의 해결책인 시간 역행 샘플링 (Time Reversal Sampling) 은 시작 프레임과 종료 프레임에서 각각 순방향 (Forward) 과 역방향 (Backward) 의 탈노이즈 (Denoising) 경로를 생성하여 이를 결합하는 방식입니다. 그러나 이 방식에는 다음과 같은 근본적인 문제가 존재합니다:

운동 우선순위 충돌 (Motion Prior Conflict): I2V 모델은 본질적으로 순방향으로 연속된 프레임을 예측하도록 훈련되었습니다. 따라서 시작 프레임에서 생성된 순방향 경로는 자연스러운 운동 흐름을 따르지만, 종료 프레임에서 역방향으로 생성된 경로는 모델의 훈련 편향 (Forward-generation bias) 으로 인해 실제 과거를 역재생하는 대신 미래를 예측하는 듯한 (Forward-looking) 잘못된 운동 경로를 생성하는 경향이 있습니다.
시간적 불연속성: 두 경로가 서로 다른 운동 우선순위 (Motion Prior) 를 따르기 때문에, 이를 단순히 병렬로 융합하거나 순차적으로 연결하면 프레임 간의 불일치, 유령 아티팩트 (Ghosting), 역재생 현상 등 심각한 시각적 결함이 발생합니다.

2. 제안 방법: 운동 우선순위 증류 (Motion Prior Distillation, MPD)

저자들은 두 경로의 운동 우선순위를 정렬하기 위해 운동 우선순위 증류 (MPD) 라는 새로운 추론 시간 (Inference-time) 증류 기법을 제안합니다. 이 방법은 추가적인 모델 훈련 없이 기존 I2V 모델 (예: Stable Video Diffusion) 에 적용 가능합니다.

핵심 아이디어

단일 경로 정렬: 역방향 경로를 종료 프레임의 조건으로 독립적으로 탈노이즈하는 대신, 시작 프레임에서 유도된 운동 잔차 (Motion Residual) 를 역방향 경로로 증류하여 두 경로를 하나의 일관된 운동 궤적으로 만듭니다.
운동 잔차 활용: 순방향 경로에서 탈노이즈된 추정치 간의 차이 (잔차) 는 시작 프레임에 기반한 운동 정보를 포함하고 있습니다. 저자들은 이 잔차를 추출하여 역방향 경로의 노이즈 예측에 적용함으로써, 역방향 경로가 시작 프레임의 운동 흐름을 거꾸로 따라가도록 유도합니다.

알고리즘 흐름

순방향 경로 생성: 시작 프레임 ( $c_{start}$ ) 을 조건으로 순방향 탈노이즈 경로를 생성합니다.
운동 잔차 추출: 순방향 경로의 탈노이즈 추정치 ( $\hat{x}_{0, c_{start}}$ ) 와 노이즈 샘플 ( $x_t$ ) 간의 잔차 ( $\Delta \epsilon_{fwd}$ ) 를 계산합니다.
역방향 경로 재구성:
- 종료 프레임 ( $c_{end}$ ) 을 조건으로 하는 기존 역방향 탈노이즈를 의도적으로 수행하지 않습니다.
- 대신, 초기 역방향 노이즈를 설정한 후, 위에서 추출한 순방향 운동 잔차 ( $\Delta \epsilon_{fwd}$ ) 를 누적하여 역방향 노이즈 ( $\epsilon_{bwd}$ ) 를 재구성합니다.
- 이를 통해 역방향 경로가 시작 프레임의 운동 우선순위를 따르도록 (시간이 역전된 형태로) 유도합니다.
최종 합성: 재구성된 역방향 추정치와 순방향 추정치를 융합하여 다음 단계의 샘플을 업데이트합니다.

이 과정은 주로 초기 탈노이즈 단계 (Early denoising steps) 에서 적용되어 전역적인 운동 궤적을 올바르게 설정한 후, 후기 단계에서는 기존 샘플러를 사용하여 세부 사항을 정제합니다.

3. 주요 기여 (Key Contributions)

운동 우선순위 충돌 해결: 시간 역행 샘플링에서 발생하는 순방향/역방향 경로의 운동 불일치 문제를 근본적으로 해결하는 새로운 프레임워크를 제안했습니다.
훈련 불필요 (Training-free) 기법: 추가적인 모델 학습이나 미세 조정 (Fine-tuning) 없이, 기존 대규모 I2V 모델의 추론 과정에만 적용하여 높은 성능을 달성합니다.
단일 운동 우선순위 정렬: 두 개의 서로 다른 조건 (시작/종료) 에서 발생하는 모순을 제거하고, 시작 프레임의 운동 흐름을 역방향 경로에 증류하여 시간적으로 일관된 단일 궤적을 생성합니다.
광범위한 검증: 정량적 지표 (FID, FVD, LPIPS 등) 와 인간 평가 (User Study) 를 통해 기존 SOTA 방법들 (TRF, ViBiD, GI 등) 보다 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

정량적 평가 (Quantitative): DAVIS 및 Pexels 데이터셋에서 제안된 방법 (Ours + TRF, Ours + ViBiD) 은 기존 방법들보다 FID(이미지 품질), FVD(비디오 일관성), LPIPS(지각적 유사성) 모든 지표에서 우수한 성능을 보였습니다. 특히 FVD 점수 향상을 통해 시간적 일관성이 크게 개선되었음을 확인했습니다.
정성적 평가 (Qualitative): 기존 방법들이 보였던 유령 아티팩트, 역재생, 객체의 불연속적인 소멸/부재 등의 문제가 MPD 를 적용한 결과물에서는 현저히 감소했습니다. 객체의 운동 방향이 시작과 종료 프레임 사이에서 자연스럽게 연결되었습니다.
사용자 연구 (User Study): 아마존 Mechanical Turk 를 통한 사용자 평가에서 제안된 방법은 자연스러움 (Naturalness), 시간적 일관성, 아티팩트 부재 측면에서 다른 모든 베이스라인 방법보다 높은 선호도를 기록했습니다.
효율성: 추가적인 훈련 비용이 없으며, 추론 시간도 기존 방법들과 비교해 큰 차이가 없거나 미세하게 증가하는 수준으로 효율적입니다.

5. 의의 및 결론 (Significance)

이 논문은 생성형 비디오 인터비닝 분야에서 시간 역행 샘플링의 근본적인 한계인 '운동 우선순위 충돌' 을 인식하고, 이를 증류 (Distillation) 라는 개념을 통해 해결한 획기적인 접근법입니다.

기존의 복잡한 모델 수정이나 추가 훈련 없이, 추론 과정 (Inference-time) 만을 최적화하여 두 개의 제약 조건을 만족하면서도 자연스러운 운동 흐름을 생성할 수 있음을 증명했습니다. 이는 생성형 AI 를 활용한 비디오 편집, 애니메이션, 콘텐츠 생성 등 다양한 분야에서 시간적 일관성이 중요한 작업에 있어 강력한 기반 기술을 제공합니다.

Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening