Arbitrary Generative Video Interpolation

Each language version is independently generated for its own context, not a direct translation.

1. 기존 기술의 문제점: "고정된 레시피"

지금까지의 영상 생성 기술은 마치 고정된 레시피를 가진 요리사 같았습니다.

상황: "시작 (A)"과 "끝 (B)"이라는 두 장면을 주면, 요리사는 "그 사이를 3 단계로 나누어 중간 요리 (프레임) 를 만들어줘"라고만 할 수 있었습니다.
문제: 만약 사용자가 "그 사이를 100 단계로 아주 천천히 보여줘"라고 하거나, "0.3 초 지점의 장면을 딱 하나만 보여줘"라고 요청하면, 기존 기술은 이를 처리할 수 없었습니다. 마치 3 단계를 만드는 레시피만 있는 요리사가 100 단계를 만들려고 애쓰는 것과 비슷합니다.

2. ArbInterp 의 혁신: "자유로운 시간 여행"

이 논문이 제안한 ArbInterp는 완전히 다른 접근법을 사용합니다. 마치 시간 여행자가 시계를 마음대로 조절할 수 있는 것과 같습니다.

핵심 아이디어: 시작을 '0 시', 끝을 '1 시'라고 정해두면, 그 사이의 0.25 시, 0.1234 시, 0.999 시 등 아무 때나 장면을 만들어낼 수 있습니다.
결과: 사용자가 원하는 대로 영상의 속도를 조절하거나 (프레임 레이트), 아주 긴 시간을 아주 정교하게 채워 넣을 수 있습니다.

3. 어떻게 가능한가요? (두 가지 핵심 기술)

① TaRoPE: "시간을 읽는 나침반"

기존 AI 모델은 "1 번째 장면, 2 번째 장면, 3 번째 장면"처럼 순서 번호만 기억했습니다. 하지만 ArbInterp 는 **실제 시간 (0~1 사이의 숫자)**을 기억하도록 만들었습니다.

비유: 기존 모델이 "3 층, 4 층, 5 층"이라는 층수 번호만 보고 엘리베이터를 움직였다면, ArbInterp 는 **"3.5 층, 4.2 층"**처럼 정확한 높이를 알고 있습니다. 그래서 AI 는 "0.5 초 지점"이라는 명령을 받으면, 그 정확한 시간의 장면을 상상해 낼 수 있게 됩니다. 이를 **TaRoPE(시간 인식 회전 위치 임베딩)**라고 부릅니다.

② 외관과 움직임 분리: "연속된 영화 제작"

아주 긴 영상을 한 번에 만들면 AI 가 혼란스러워해서 장면과 장면이 끊기거나 (깜빡임), 움직임이 어색해질 수 있습니다.

해결책: 긴 영상을 여러 조각 (세그먼트) 으로 나누어 만들되, 이전 조각의 마지막 장면을 '시작점'으로 삼고, 이전 조각의 움직임 흐름을 '지시자'로 삼아 다음 조각을 이어줍니다.
비유: 마치 연속된 만화책을 그릴 때, 이전 페이지의 마지막 그림을 보고 다음 페이지를 그리면서, 캐릭터의 표정 (외관) 은 그대로 유지하고, 손이 움직이는 방향 (움직임) 은 자연스럽게 이어지도록 하는 것과 같습니다. 이를 외관 - 움직임 분리 전략이라고 합니다.

4. 왜 이것이 중요한가요?

이 기술은 영상 제작자들에게 완벽한 자유를 줍니다.

게임: 게임 캐릭터의 움직임을 아주 부드럽게 (고주사율) 만들어 줄 수 있습니다.
영화/광고: 감독이 "이 장면에서 1 초를 10 초로 늘려서 천천히 보여줘"라고 하면, AI 가 그 사이에 자연스럽게 움직이는 장면을 채워줍니다.
실시간 스트리밍: 실시간으로 들어오는 영상에 끊김 없이 중간 장면을 채워 넣어 끊김 없는 영상을 보여줄 수 있습니다.

요약

이 논문은 **"시작과 끝만 주면, 그 사이의 시간을 마음대로 조절하며 어떤 순간이든, 얼마나 길게든 자연스럽게 이어지는 영상을 만들어주는 새로운 AI"**를 소개했습니다. 마치 시간을 자유롭게 조종할 수 있는 마법 지팡이를 영상 제작자에게 준 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 생성적 비디오 프레임 보간 (Generative Video Frame Interpolation, VFI) 기술은 다음과 같은 한계를 가지고 있었습니다:

고정된 프레임 수의 제약: 기존 방법들은 시작 프레임과 종료 프레임 사이에 미리 정해진 개수 (예: 2 배, 4 배 등) 의 중간 프레임만 생성할 수 있었습니다. 이는 비디오의 프레임 속도 (FPS) 나 재생 시간을 동적으로 조절하는 데 유연성을 떨어뜨립니다.
연속적인 운동 역학 모델링의 부재: 고정된 프레임 간격만 지원하므로, 연속적인 운동 흐름을 미세하게 제어하거나 임의의 시간戳 (timestamp) 에서 프레임을 생성하는 것이 불가능했습니다.
장기 보간의 불연속성: 긴 비디오를 생성할 때 여러 세그먼트로 나누어 생성하면, 세그먼트 간의 외관 (Appearance) 일관성과 운동 (Motion) 연속성이 깨지는 문제가 발생했습니다.

2. 제안 방법론 (Methodology)

저자들은 ArbInterp라는 새로운 생성적 VFI 프레임워크를 제안하여, 시작 ( $t=0$ ) 과 종료 ( $t=1$ ) 프레임 사이의 임의의 연속적인 시간戳에서 임의의 길이의 프레임을 생성할 수 있도록 했습니다. 주요 핵심 기술은 다음과 같습니다.

A. 타임스탬프 인식 회전 위치 임베딩 (TaRoPE, Timestamp-aware Rotary Position Embedding)

기존 RoPE 의 한계: 기존 DiT(Diffusion Transformer) 기반 비디오 생성 모델은 프레임의 위치를 고정된 인덱스 (0, 1, 2...) 로만 인식하여, 특정 길이의 시퀀스에만 최적화되는 경향이 있었습니다.
TaRoPE 의 혁신: 프레임의 위치를 고정된 인덱스가 아닌, 0 과 1 사이의 연속적인 정규화된 타임스탬프로 정의합니다.
- 예를 들어, $t=[0, 0.5, 1]$ 은 2 배 보간, $t=[0, 0.25, 0.5, 0.75, 1]$ 은 4 배 보간을 의미합니다.
- 이를 통해 모델은 입력 시퀀스의 길이에 구애받지 않고, 사용자가 지정한 임의의 시간점에서의 운동을 정밀하게 학습하고 생성할 수 있게 됩니다. 추가 파라미터 없이 기존 생성 모델을 미세 조정 (Fine-tuning) 하는 것만으로도 구현 가능합니다.

B. 외관 - 운동 분리 조건부 전략 (Appearance-Motion Decoupled Conditioning)

장기 보간을 위해 시퀀스를 세그먼트로 나누어 생성할 때 발생하는 불연속성을 해결하기 위해 고안된 전략입니다.

외관 일관성 (Appearance Consistency): 이전 세그먼트의 마지막 프레임을 현재 세그먼트의 입력 (Prefix Frame) 으로 사용하여 시각적 외관의 매끄러운 전환을 보장합니다.
운동 연속성 (Motion Coherence): 이전 세그먼트의 마지막 $N$ 프레임에서 **운동 의미 추출기 (Motion Semantic Extractor, MSE)**를 통해 운동 토큰을 추출합니다. 이 토큰은 크로스 어텐션 (Cross-attention) 을 통해 현재 세그먼트의 생성 과정에 주입되어, 세그먼트 간의 운동 흐름이 자연스럽게 이어지도록 합니다.
이 방식은 직접적인 잠재 공간 (Latent) 연결보다 계산 효율이 높으면서도, 교차 어텐션만 사용하는 방법보다 더 강력한 일관성을 제공합니다.

C. 추론 전략

직접 보간 (Direct Interp): 짧은 시퀀스의 경우 한 번의 순전파로 전체를 생성.
세그먼트별 보간 (Segment-by-Segment): 긴 시퀀스를 비겹치는 구간으로 나누어 순차적 생성 (실시간 응답성 높음).
계층적 보간 (Hierarchical Interp): 먼저 거시적인 앵커 프레임을 생성한 후, 그 사이를 채우는 방식 (글로벌 운동 궤적 제어에 유리).

3. 주요 기여 (Key Contributions)

ArbInterp 프레임워크 제안: 고정된 프레임 수의 제약을 넘어, 연속적인 타임스탬프를 지정하여 임의의 길이와 시점의 프레임을 생성할 수 있는 새로운 패러다임을 제시했습니다.
TaRoPE 도입: 생성 모델에 타임스탬프 정보를 효과적으로 주입하여, 모델이 고정된 인덱스가 아닌 실제 시간적 위치를 인식하도록 하여 연속적인 운동 역학 모델링 능력을 획기적으로 향상시켰습니다.
외관 - 운동 분리 조건부 전략: 장기 비디오 보간 시 세그먼트 간의 외관과 운동의 일관성을 동시에 유지하는 효율적인 메커니즘을 설계했습니다.
MultiInterpBench 구축: 2 배부터 32 배 (그 이상) 까지의 다양한 보간 비율을 평가할 수 있는 포괄적인 벤치마크를 구축하여 모델의 일반화 능력을 검증했습니다.

4. 실험 결과 (Results)

벤치마크 성능: 제안된 MultiInterpBench(2x, 8x, 16x, 32x 보간) 에서 기존 최첨단 방법 (LDMVFI, DynamiCrafter, TRF, GI 등) 보다 모든 지표에서 우수한 성능을 보였습니다.
- FID/FVD: 이미지 및 비디오 품질 지표에서 가장 낮은 오류율을 기록했습니다.
- VBench: 주제 일관성, 배경 일관성, 시간적 깜빡임, 운동 매끄러움 등 모든 항목에서 최고 점수를 달성했습니다.
유연성: 32 배 이상의 보간 비율에서도 높은 품질을 유지하며, 고정된 프레임 수에 제한받지 않는 유연성을 입증했습니다.
효율성: 8 개의 GPU(96GB) 에서 20,000 스텝의 미세 조정만으로 Wan2.1 모델을 기반으로 성공적인 보간이 가능함을 보여주었습니다.
시각적 품질: Figure 5 와 Figure 6 에서 보듯, 기존 방법들은 프레임 간 불연속이나 아티팩트가 발생하지만, ArbInterp 는 매끄럽고 자연스러운 운동 흐름을 구현했습니다.

5. 의의 및 의의 (Significance)

실용적 유연성: 비디오 제작 과정에서 프레임 속도 조절이나 특정 시간점의 프레임 생성이 필요할 때, 고정된 설정에 의존하지 않고 자유롭게 제어할 수 있게 되었습니다.
연속 운동 모델링의 진전: 생성 모델이 이산적인 프레임 인덱스가 아닌 연속적인 시간 축을 이해하도록 함으로써, 비디오 생성의 물리적 일관성과 운동 역학 모델링 능력을 한 단계 끌어올렸습니다.
스트리밍 보간 확장: 제안된 아키텍처는 실시간 스트리밍 프레임 보간 (Streaming Frame Interpolation) 으로 자연스럽게 확장 가능하여, 게임이나 실시간 영상 처리 분야에서의 적용 가능성을 열었습니다.

결론적으로, ArbInterp 는 생성적 비디오 보간 분야에서 **유연성 (Flexibility)**과 생성 품질 (Generative Quality) 사이의 균형을 이루는 새로운 표준을 제시한 연구입니다.