Velocity Disambiguation for Video Frame Interpolation

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제: "시간만 알려주는 나침반"

비디오를 만들 때, 시작 장면 (A) 과 끝 장면 (B) 이 있다고 가정해 봅시다. AI 는 이 두 장면을 보고 그 사이 (예: 0.5 초) 에 어떤 장면이 있을지 예측해야 합니다.

기존 방식 (Time Indexing):
AI 에게는 "이건 0.5 초 지점이야"라고 시간만 알려줍니다.
- 비유: 친구에게 "오후 2 시에 서울역에 도착할 거야"라고만 말하고 출발했습니다.
- 문제: 친구가 1 시에 출발해서 빠르게 달려 2 시에 도착할 수도 있고, 1 시 30 분에 출발해서 천천히 걸어 2 시에 도착할 수도 있습니다. AI 는 이 모든 가능성을 다 고려해야 하므로, "빠르게 가는 친구"와 "천천히 걷는 친구"의 모습을 섞어서 예측합니다.
- 결과: 화면이 흐릿해집니다 (Blur). 마치 두 개의 사진이 겹쳐진 것처럼 선명하지 않죠.

2. 이 연구의 핵심 해결책 1: "거리 지수 (Distance Indexing)"

저자들은 AI 에게 "시간" 대신 **"얼마나 이동했는지 (거리)"**를 알려주는 새로운 방식을 제안했습니다.

새로운 방식 (Distance Indexing):
AI 에게는 "이건 시작점에서 끝점까지의 50% 지점이야"라고 이동 거리를 알려줍니다.
- 비유: 친구에게 "서울역까지 가는 길의 절반 지점에 와 있어"라고 알려줍니다.
- 효과: 이제 AI 는 "속도가 빠르든 느리든, 절반 지점에 오면 공은 여기 있어야 해!"라고 명확하게 알 수 있습니다. 속도에 대한 혼란 (Ambiguity) 이 사라지므로, AI 는 흐릿한 그림을 그리는 대신 선명한 한 장의 그림을 그릴 수 있게 됩니다.

3. 해결책 2: "한 걸음씩 걷기 (Iterative Reference)"

하지만 거리만 알려주면 방향이 헷갈릴 수도 있습니다. (예: 직선으로 갔는지, 꺾어서 갔는지) 특히 시작과 끝이 너무 멀면 AI 가 길을 잃기 쉽습니다.

새로운 전략:
멀리 있는 목표 지점을 한 번에 쏙 뽑아내지 말고, 중간 지점을 하나씩 거쳐가며 예측합니다.
- 비유: 산 정상 (끝 장면) 까지 한 번에 오르는 대신, **중간 쉼터 (참조 프레임)**를 하나씩 찾아서 "여기서부터 저기까지"를 반복하며 올라갑니다.
- 효과: 한 번에 너무 먼 거리를 예측할 때 생기는 실수와 방향 감을 잃는 문제를 해결해 줍니다.

4. 더 놀라운 기능: "나만의 타임머신" (Video Editing)

이 기술은 단순히 비디오를 부드럽게 만드는 것을 넘어, 사용자가 직접 움직임을 조절할 수 있게 해줍니다.

비유: 영화 속 캐릭터 하나를 마법처럼 선택해서, **"이 캐릭터는 빨리 움직이고, 저 캐릭터는 천천히 움직여"**라고 명령할 수 있습니다.
실제 적용: 예를 들어, 야구공은 빠르게 날아가고, 배경의 나무는 느리게 움직이게 만들 수 있습니다. 심지어 "사람을 시간 역행하게" 만들어서 뒤로 걷는 것처럼 보이게 할 수도 있습니다. (Segment Anything Model 같은 기술과 결합하여 가능해졌습니다.)

5. 더 많은 정보를 쓸 때 (Multi-frame)

만약 시작과 끝뿐만 아니라, 그 사이에 있는 다른 프레임들 (주변의 사진) 도 함께 준다면?

비유: 길을 찾을 때 지도 하나만 보는 게 아니라, 주변에 있는 다른 건물들과 비교해 보면 훨씬 정확한 위치를 알 수 있죠.
효과: 주변 프레임을 활용하면 AI 가 이동 경로를 더 정밀하게 계산할 수 있어, 화질이 훨씬 더 좋아집니다.

📝 요약: 이 논문이 왜 중요한가요?

흐릿함 해결: 기존 AI 가 "시간"만 보고 흐릿하게 그렸다면, 이제는 "이동 거리"를 알려주어 선명한 화질을 구현했습니다.
플러그 앤 플레이: 기존에 있던 최신 AI 모델들 (RIFE, IFRNet 등) 에 별도의 복잡한 수정 없이 쉽게 적용할 수 있습니다. (마치 스마트폰에 새로운 앱을 설치하듯이)
창의적인 편집: 단순히 비디오를 부드럽게 만드는 것을 넘어, 각 사물마다 다른 속도로 움직이게 조절할 수 있어 영상 편집의 새로운 가능성을 열었습니다.

결론적으로, 이 연구는 **"AI 가 비디오의 중간 장면을 그릴 때, '언제'가 아니라 '어디까지 왔는지'를 알려주면 훨씬 더 똑똑하고 선명해진다"**는 것을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비디오 프레임 보간 (Video Frame Interpolation, VFI) 방법론은 주로 '시간 인덱싱 (Time Indexing)' 방식을 사용합니다. 이는 시작 프레임 ( $I_0$ ) 과 종료 프레임 ( $I_1$ ) 사이의 특정 시간 $t$ 를 입력으로 받아 해당 시점의 프레임을 예측하는 방식입니다.

하지만 이 방식에는 근본적인 속도 모호성 (Velocity Ambiguity) 문제가 존재합니다.

속도 모호성: 시작점과 끝점이 주어졌을 때, 중간 시간 $t$ 에서 물체가 어디에 위치할지는 물체의 가속도, 감속도, 등속도 등 무수히 많은 궤적 가능성이 존재합니다.
방향 모호성: 장거리 운동의 경우, 물체의 이동 방향조차 불분명할 수 있습니다.
결과: 학습 과정에서 동일한 입력 ( $I_0, I_1, t$ ) 에 대해 여러 가지 정답 (다양한 궤적) 이 존재하게 되며, 모델은 이러한 모호성을 해결하지 못해 모든 가능성을 평균화한 흐릿한 (Blurry) 프레임을 생성하게 됩니다. 이는 시각적 품질을 저하시키는 주요 원인입니다.

2. 제안된 방법론 (Methodology)

저자들은 시간 인덱싱 대신 **거리 인덱싱 (Distance Indexing)**을 도입하고, 이를 보완하기 위해 반복적 참조 기반 추정 (Iterative Reference-based Estimation) 전략을 제안합니다.

A. 거리 인덱싱 (Distance Indexing)

개념: 시간 $t$ 대신, 시작 프레임과 종료 프레임 사이에서 물체가 이동한 **거리 비율 (Distance Ratio)**을 명시적으로 입력합니다.
구현: 각 픽셀에 대해 $D_t(x, y) \in [0, 1]$ 값을 할당합니다. 이는 해당 픽셀이 시작점에서 종료점까지 이동한 총 거리의 비율을 의미합니다.
학습 및 추론:
- 학습 시: Ground Truth 프레임으로부터 광학 흐름 (Optical Flow) 을 계산하여 정확한 거리 맵 $D_t$ 를 생성하여 모델에 제공합니다.
- 추론 시: 정확한 거리 맵을 알 수 없으므로, 모든 픽셀에 대해 균일한 값 ( $D_t(x, y) = t$ ) 을 입력합니다. 이는 물체가 등속도로 이동한다는 가정을 내포하며, 실제 응용에서 매우 효과적입니다.
효과: 시간-위치 매핑의 1 대 다 (One-to-Many) 관계를 거리-위치 매핑의 1 대 1 (One-to-One) 관계로 변환하여 학습 목표를 명확히 하고, 모델의 수렴을 돕습니다.

B. 반복적 참조 기반 추정 (Iterative Reference-based Estimation)

목적: 거리 인덱싱은 속도 모호성을 해결하지만, 장거리 운동에서의 방향 모호성은 여전히 남습니다. 특히 $t=0.5$ 와 같이 시작과 끝에서 멀리 떨어진 지점에서는 예측이 불명확해집니다.
전략: 긴 거리 보간을 여러 개의 짧은 단계로 분할하여 점진적으로 추정합니다.
- 예를 들어, $t$ 까지의 보간을 $t/2$ 로 먼저 예측한 후, 이를 참조 프레임 ( $I_{ref}$ ) 으로 사용하여 다시 $t$ 를 예측합니다.
- 수식: $I_{t} = F(I_0, I_1, D_t, I_{t/2}, D_{t/2})$
효과: 각 단계에서 탐색 공간을 제한하여 방향 모호성을 줄이고, 누적 오차를 방지하며 더 선명한 프레임을 생성합니다.

C. 추가 기술 (Multi-frame Fusion & Continuous Estimator)

연속 거리 맵 추정기: 2 프레임 이상의 입력이 가능한 경우, 3 차 B-스플라인과 신경 ODE (Neural ODE) 를 활용하여 픽셀 단위의 밀집된 (Dense) 거리 맵을 추정합니다.
다중 프레임 리파이너 (Refiner): 추가적인 인접 프레임 ( $I_{-1}, I_2$ ) 을 활용하여 초기 보간 결과를 정제하는 모듈을 설계합니다.
객체 단위 조작 (Manipulated Interpolation): SAM (Segment Anything Model) 과 결합하여 각 객체별로 별도의 거리 곡선을 지정할 수 있게 하여, 특정 객체의 시간을 되감거나 속도를 조절하는 등 비디오 편집 기능을 제공합니다.

3. 주요 기여 (Key Contributions)

거리 인덱싱 및 반복 추정 전략 제안: 속도 모호성을 해결하여 임의 시간 보간 모델의 성능을 획기적으로 개선하는 플러그 앤 플레이 (Plug-and-play) 방식 도입.
객체 단위 보간 조작: 거리 맵을 개별 객체에 적용하여 임의의 시간 재조정 (Re-timing) 이 가능한 새로운 비디오 편집 도구 제시.
연속 맵 추정 및 다중 프레임 융합: 4 프레임 이상 입력 시 픽셀 단위 밀집 거리 맵을 추정하고, 리파이너를 통해 화질을 더욱 향상시키는 아키텍처 제안.

4. 실험 결과 (Results)

저자들은 RIFE, IFRNet, AMT, EMA-VFI 등 최신 VFI 모델들에 제안된 전략을 적용하여 실험했습니다.

정성적 평가 (Qualitative): 거리 인덱싱과 반복 추정을 적용한 모델 ([D, R]) 은 기존 시간 인덱싱 모델에 비해 훨씬 선명하고 디테일이 살아있는 프레임을 생성했습니다. 특히 모호성이 큰 장거리 보간에서 흐림 현상이 크게 감소했습니다.
정량적 평가 (Quantitative):
- Vimeo90K Septuplet 데이터셋: PSNR/SSIM 같은 픽셀 기반 지표에서는 균일 거리 맵 사용 시 Ground Truth 와의 정렬 문제로 인해 기존 모델보다 낮을 수 있으나, LPIPS, NIQE와 같은 지각적 (Perceptual) 지표에서는 모든 모델에서 가장 우수한 성능을 보였습니다.
- 사용자 연구: 30 명의 참가자를 대상으로 한 평가에서 제안된 방법 ([D, R]) 이 가장 선호되었습니다.
- 다중 프레임 설정: 추가 프레임과 연속 거리 맵 추정기를 결합한 경우 ([D, M]e) 모든 모델에서 PSNR, SSIM, LPIPS, NIQE 등 모든 지표에서 최상의 성능을 기록했습니다.
- 확장성: 확산 기반 모델 (LDMVFI) 및 트랜스포머 기반 모델 (VFI-Transformer) 등 다양한 아키텍처에서도 동일하게 성능 향상이 확인되었습니다.

5. 의의 및 중요성 (Significance)

패러다임의 전환: VFI 분야에서 오랫동안 간과되었던 '속도 모호성' 문제를 명시적으로 해결함으로써, 학습 기반 VFI 의 한계를 극복하는 새로운 방향성을 제시했습니다.
실용성: 추가적인 계산 비용 없이 (추론 시 균일 맵 사용 시) 기존 모델에 쉽게 적용 가능하며, 화질 향상이 뚜렷합니다.
응용 가능성: 단순한 프레임 보간을 넘어, 객체 단위의 시간 조작이 가능해져 비디오 편집, 특수 효과, 콘텐츠 생성 등 다양한 분야에 활용될 수 있는 잠재력을 보여줍니다.

이 논문은 비디오 프레임 보간 기술이 단순히 '중간 프레임을 채우는 것'을 넘어, 물체의 운동 궤적에 대한 명확한 이해를 바탕으로 더 정교하고 자연스러운 영상을 생성할 수 있음을 증명했습니다.