FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'FC-VFI'**라는 새로운 기술을 소개합니다. 이 기술은 쉽게 말해 **"영화를 더 부드럽고 선명하게 만들어주는 마법"**입니다.

기존에 30 프레임 (FPS) 으로 찍은 영상을 120 프레임이나 240 프레임으로 늘려서 슬로우 모션처럼 만들어주는 기술들이 있었지만, 문제는 화질이 깨지거나 (애니메이션처럼 뭉개지거나), 움직임이 어색하게 떨리는 것이었습니다.

이 논문은 그 문제를 해결하기 위해 다음과 같은 아이디어를 제안합니다.

🎬 1. 문제 상황: "빈칸 채우기"가 너무 어렵다!

상상해보세요. 책상 위에 A라는 사진과 B라는 사진이 있습니다. 이 두 사진 사이에 A 와 B 사이를 자연스럽게 연결하는 7 장의 사진을 그려야 한다고 칩시다.

기존 기술 (광학 흐름): 두 사진 사이의 물체가 어떻게 움직일지 '추측'해서 그립니다. 하지만 물체가 너무 빨리 움직이거나 복잡하면 추측이 빗나가서, 중간에 그려진 사진이 유령처럼 흐릿해지거나, 자동차가 뭉개지는 기괴한 결과가 나옵니다.
생성형 AI (확산 모델): "이런 느낌의 사진이 있을 거야"라고 상상해서 그립니다. 하지만 상상력이 너무 강해서 원래 사진의 디테일 (차량 번호판, 글자 등) 을 잊어버리고 엉뚱한 것을 그려내기도 합니다.

✨ 2. FC-VFI 의 해결책: "두 끝을 잡고, 선을 따라가자"

이 논문은 이 두 가지 문제를 해결하기 위해 세 가지 핵심 비법을 사용합니다.

🧵 비법 1: "시작과 끝을 동시에 잡는 손" (Temporal Fidelity Modulation)

기존 AI 는 중간 그림을 그릴 때 시작과 끝 사진을 '옆에'만 두고 그렸습니다. 그래서 중간에 가면 원래 모습을 잊어버리기 일쑤였습니다.

FC-VFI 의 방식: AI 가 중간 그림을 그릴 때, 시작 사진과 끝 사진을 '시간의 흐름' 속에 직접 끼워 넣습니다. 마치 두 손으로 시작과 끝을 꽉 잡고, 그 사이를 채우듯이요.
효과: 중간에 그려지는 사진이 시작과 끝의 모습을 절대 잊지 않게 됩니다. 그래서 자동차가 움직여도 차체가 뭉개지지 않고, 글자도 흐트러지지 않습니다.

📏 비법 2: "움직임의 차이"를 강조하는 규칙 (Temporal Difference Loss)

중간 그림들이 너무 비슷하게 그려지면, 영상이 멈춰 있는 것처럼 보일 수 있습니다 (정지 화면처럼).

FC-VFI 의 방식: "이 그림과 다음 그림은 반드시 조금씩 달라져야 해!"라고 AI 에게 엄하게 가르칩니다. 두 그림 사이의 차이 (움직임) 가 실제 움직임과 일치하도록 훈련시킵니다.
효과: 영상이 매우 부드럽게 흐르게 됩니다. 끊김 없이 자연스럽게 움직이는 슬로우 모션이 완성됩니다.

🗺️ 비법 3: "핵심 선 (Matching Lines)"으로 길 안내하기

기존 기술은 복잡한 움직임을 따라가려고 '광학 흐름 (모든 픽셀의 움직임)'을 쫓았는데, 이건 오류가 많았습니다.

FC-VFI 의 방식: 모든 픽셀을 다 쫓는 대신, **물체의 가장자리나 중요한 선들 (예: 건물의 모서리, 사람의 윤곽)**만 쫓습니다. 이를 '매칭 라인'이라고 부릅니다.
효과: 복잡한 배경에서도 물체의 구조가 무너지지 않습니다. 마치 지도에서 주요 도로만 따라가면 길을 잃지 않는 것과 같습니다.

🚀 3. 결과: 무엇이 달라졌나요?

고화질 지원: 4K(2560x1440) 같은 고해상도 영상에서도 글자나 번호판 같은 미세한 디테일이 살아있습니다.
빠른 속도: 다른 AI 들은 그림을 그릴 때 여러 번 반복해서 수정해야 했지만, 이 기술은 10 번만 그려도 완벽합니다. (마치 숙련된 화가가 한 번에 그리는 것과 같습니다.)
자연스러운 움직임: 유령처럼 흐릿한 그림이나 뭉개진 형태가 사라지고, 실제 촬영한 것처럼 자연스러운 슬로우 모션 영상이 만들어집니다.

💡 한 줄 요약

"FC-VFI 는 시작과 끝을 꽉 잡고, 물체의 핵심 선을 따라가며, 중간 그림들이 서로 자연스럽게 연결되도록 가르쳐서, 고화질에서도 깨지지 않는 완벽한 슬로우 모션 영상을 만들어내는 기술입니다."

이 기술은 영화 제작, 게임, 혹은 우리가 찍은 일상 영상을 더 아름답게 만들어주는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 비디오 프레임 보간 (Video Frame Interpolation, VFI) 은 주어진 시작 프레임과 종료 프레임 사이의 중간 프레임을 생성하여 고프레임 레이트 (High-FPS) 슬로우 모션 비디오를 생성하는 핵심 기술입니다. 최근 대규모 사전 학습된 비디오 확산 모델 (Diffusion Models) 이 이 분야에서 주목받고 있습니다.
기존 방법의 한계:
1. 신뢰성 (Fidelity) 문제: 기존 확산 기반 VFI 방법들은 내재된 생성적 사전 지식 (Generative Priors) 에 의존하는 경향이 있어, 시작/종료 프레임의 세부 사항을 정확히 유지하지 못합니다. 이로 인해 중간 프레임에서 물체의 변형, 아티팩트 (Ghosting), 구조적 왜곡이 발생하며 시각적 일관성이 떨어집니다.
2. 시간적 일관성 (Temporal Consistency) 문제: 복잡한 장면에서 밀도 광학 흐름 (Dense Optical Flow) 추정은 오류가 발생하기 쉽고, 희소 점 (Sparse Points) 은 구조적 맥락을 포착하기에 부족합니다. 이로 인해 생성된 프레임 간의 움직임이 불연속적이거나 부정확할 수 있습니다.
3. 비효율성: 많은 기존 방법들이 양방향 시간 역전 (Bidirectional Time-Reversal) 퓨전을 위해 두 번의 추론을 수행하거나, 추가적인 재-노이즈 (Re-noising) 단계를 거치며 계산 비용이 높습니다.

2. 제안 방법: FC-VFI (Methodology)

저자들은 FC-VFI (Faithful and Consistent Video Frame Interpolation) 를 제안하며, 사전 학습된 대규모 Image-to-Video (I2V) 모델 (HunyuanVideo-I2V) 을 파인튜닝하여 VFI 태스크에 적용합니다. 주요 기술적 구성 요소는 다음과 같습니다.

가. 시간적 신뢰성 변조 참조 (Temporal Fidelity Modulation Reference, TFMR)

문제 해결: 기존 방법들은 채널 단위로 조건을 연결 (Concatenation) 하는 방식을 사용했으나, 이는 시작/종료 프레임의 노이즈가 중간 프레임 생성에 부정적인 영향을 줄 수 있습니다.
해결책: 시작 프레임 ( $z_s$ ) 과 종료 프레임 ( $z_e$ ) 의 잠재 표현을 중간 프레임의 노이즈 잠재 공간과 시간 차원 (Temporal Dimension) 으로 연결합니다.
신뢰성 변조: 시작/종료 프레임에는 고정된 시간 단계 ( $t^*=0$ , 노이즈 없는 상태) 를 부여하여 '신뢰성 (Fidelity)'을 유지하게 하고, 중간 프레임에만 표준 노이즈 스케줄을 적용합니다. 이를 통해 생성 과정에서 중간 프레임이 양쪽 끝 프레임의 특징을 일관되게 참조하도록 유도합니다.

나. 시간적 차분 손실 (Temporal Difference Loss)

문제 해결: 작은 움직임 amplitude 는 인접한 프레임 간에 정지 상태에 가까운 (Near-static) 보간 결과를 초래할 수 있습니다.
해결책: 연속된 프레임 간의 예측된 속도 차이 ( $\hat{v}_{t}^{n+1} - \hat{v}_{t}^{n}$ ) 와 실제 정답 (Ground Truth) 의 속도 차이를 정렬하도록 하는 새로운 손실 함수를 도입합니다. 이는 프레임 간의 자연스러운 움직임 전환을 촉진하고 정지 현상을 완화합니다.

다. 매칭 라인 조건 (Matching Lines Condition)

문제 해결: 광학 흐름은 오류가 많고, 희소 점은 구조 정보를 부족하게 제공합니다. 또한, 프레임 단위 조건 제어는 시간적으로 압축된 VAE(Video VAE) 와 호환되지 않을 수 있습니다.
해결책: 시작/종료 프레임에서 의미론적으로 일관된 선 (Lines) 쌍을 추출하여 (GlueStick 사용), 이를 경계 프레임의 잠재 표현에 요소별 덧셈 (Element-wise addition) 으로 융합합니다.
효과: 이는 광학 흐름보다 강건하며, 희소 점보다 풍부한 구조적 정보 (물체 형태) 를 제공합니다. 또한, 단일 프레임 스케일의 특징을 다중 프레임 스케일의 비디오 잠재 공간에 직접 주입하지 않으므로 구조적 간섭을 방지합니다.

3. 주요 기여 (Key Contributions)

실용적인 파인튜닝 전략: 사전 학습된 대규모 I2V 확산 모델을 VFI 네트워크로 효율적으로 파인튜닝하여, 2560x1440 해상도에서 30 FPS 를 120/240 FPS 로 변환하는 고해상도 보간을 가능하게 함.
혁신적인 아키텍처 및 손실 함수:
- TFMR: 시간적 연결과 신뢰성 변조를 통해 보간 신뢰성을 극대화.
- 매칭 라인 조건: 구조적 안정성을 위한 새로운 조건 제어 메커니즘.
- 시간적 차분 손실: 부드러운 모션 일관성 확보.
성능 및 효율성: 기존 확산 기반 방법들보다 적은 디노이징 단계 (10 단계) 로 고품질 보간을 달성하며, 광학 흐름 기반 방법과 비교해도 구조적 무결성과 시각적 품질에서 우수함을 입증.

4. 실험 결과 (Results)

정량적 평가:
- 고해상도 (2560x1440): 광학 흐름 기반 방법 (GIMM-VFI) 과 비교하여 PSNR, SSIM, FID 등 주요 지표에서 경쟁력 있는 성능을 보임.
- 저해상도 (1024x576): 최신 확산 기반 방법들 (GI, ViBiDSampler, FCVG) 을 모든 지표 (PSNR, SSIM, FID, FVD, LPIPS) 에서 압도적으로 상회함.
정성적 평가:
- 고대비 조명, 작은 물체, 가려짐 (Occlusion) 이 있는 복잡한 장면에서도 고스트링 (Ghosting) 과 구조적 왜곡을 효과적으로 억제.
- 텍스트, 번호판, 건축물 질감 등 미세한 디테일을 잘 복원하여 시간적 일관성을 유지함.
계산 효율성:
- 기존 확산 기반 방법들이 50~300 단계의 디노이징을 요구하는 반면, FC-VFI 는 10 단계만으로 고품질 결과를 생성하여 추론 시간을 크게 단축함 (예: 1024x576 에서 16 초 vs 기존 89 초 이상).

5. 의의 및 결론 (Significance)

FC-VFI 는 대규모 생성 모델의 잠재력을 활용하면서도, 생성 모델 고유의 '할루시네이션 (Hallucination)' 문제를 해결하여 신뢰성 (Faithful) 과 일관성 (Consistent) 을 동시에 확보한 획기적인 VFI 프레임워크입니다.

고해상도 지원: 2560x1440 과 같은 고해상도에서도 제로샷 (Zero-shot) 으로 고품질 보간이 가능하여 실용성이 높습니다.
효율성: 복잡한 양방향 퓨전이나 재-노이즈 과정 없이 단일 스트림으로 빠른 추론이 가능하여, 실시간 고프레임 레이트 슬로우 모션 생성에 적합한 솔루션을 제공합니다.
미래 지향성: 이 연구는 확산 모델 기반 비디오 생성이 단순한 생성을 넘어, 원본의 구조와 움직임을 정밀하게 제어하는 분야로 진화하고 있음을 보여줍니다.

요약하자면, FC-VFI 는 기존 확산 모델의 한계를 극복하고, 시간적 참조 (Temporal Reference) 와 구조적 조건 (Structural Condition) 을 결합하여 고해상도, 고프레임 레이트 비디오 보간 분야에서 새로운 SOTA(State-of-the-Art) 를 제시한 연구입니다.