FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

이 논문은 사전 학습된 비디오 확산 모델의 한계를 극복하고 고해상도 고프레임레이트 슬로우 모션 생성을 위해, 잠재 시퀀스의 시간적 모델링과 구조 인식 운동 가이드, 그리고 시간적 일관성 손실을 도입하여 충실도와 일관성을 모두 확보한 새로운 비디오 프레임 보간 방법인 FC-VFI 를 제안합니다.

Ganggui Ding, Hao Chen, Xiaogang Xu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'FC-VFI'**라는 새로운 기술을 소개합니다. 이 기술은 쉽게 말해 **"영화를 더 부드럽고 선명하게 만들어주는 마법"**입니다.

기존에 30 프레임 (FPS) 으로 찍은 영상을 120 프레임이나 240 프레임으로 늘려서 슬로우 모션처럼 만들어주는 기술들이 있었지만, 문제는 화질이 깨지거나 (애니메이션처럼 뭉개지거나), 움직임이 어색하게 떨리는 것이었습니다.

이 논문은 그 문제를 해결하기 위해 다음과 같은 아이디어를 제안합니다.


🎬 1. 문제 상황: "빈칸 채우기"가 너무 어렵다!

상상해보세요. 책상 위에 A라는 사진과 B라는 사진이 있습니다. 이 두 사진 사이에 A 와 B 사이를 자연스럽게 연결하는 7 장의 사진을 그려야 한다고 칩시다.

  • 기존 기술 (광학 흐름): 두 사진 사이의 물체가 어떻게 움직일지 '추측'해서 그립니다. 하지만 물체가 너무 빨리 움직이거나 복잡하면 추측이 빗나가서, 중간에 그려진 사진이 유령처럼 흐릿해지거나, 자동차가 뭉개지는 기괴한 결과가 나옵니다.
  • 생성형 AI (확산 모델): "이런 느낌의 사진이 있을 거야"라고 상상해서 그립니다. 하지만 상상력이 너무 강해서 원래 사진의 디테일 (차량 번호판, 글자 등) 을 잊어버리고 엉뚱한 것을 그려내기도 합니다.

✨ 2. FC-VFI 의 해결책: "두 끝을 잡고, 선을 따라가자"

이 논문은 이 두 가지 문제를 해결하기 위해 세 가지 핵심 비법을 사용합니다.

🧵 비법 1: "시작과 끝을 동시에 잡는 손" (Temporal Fidelity Modulation)

기존 AI 는 중간 그림을 그릴 때 시작과 끝 사진을 '옆에'만 두고 그렸습니다. 그래서 중간에 가면 원래 모습을 잊어버리기 일쑤였습니다.

  • FC-VFI 의 방식: AI 가 중간 그림을 그릴 때, 시작 사진과 끝 사진을 '시간의 흐름' 속에 직접 끼워 넣습니다. 마치 두 손으로 시작과 끝을 꽉 잡고, 그 사이를 채우듯이요.
  • 효과: 중간에 그려지는 사진이 시작과 끝의 모습을 절대 잊지 않게 됩니다. 그래서 자동차가 움직여도 차체가 뭉개지지 않고, 글자도 흐트러지지 않습니다.

📏 비법 2: "움직임의 차이"를 강조하는 규칙 (Temporal Difference Loss)

중간 그림들이 너무 비슷하게 그려지면, 영상이 멈춰 있는 것처럼 보일 수 있습니다 (정지 화면처럼).

  • FC-VFI 의 방식: "이 그림과 다음 그림은 반드시 조금씩 달라져야 해!"라고 AI 에게 엄하게 가르칩니다. 두 그림 사이의 차이 (움직임) 가 실제 움직임과 일치하도록 훈련시킵니다.
  • 효과: 영상이 매우 부드럽게 흐르게 됩니다. 끊김 없이 자연스럽게 움직이는 슬로우 모션이 완성됩니다.

🗺️ 비법 3: "핵심 선 (Matching Lines)"으로 길 안내하기

기존 기술은 복잡한 움직임을 따라가려고 '광학 흐름 (모든 픽셀의 움직임)'을 쫓았는데, 이건 오류가 많았습니다.

  • FC-VFI 의 방식: 모든 픽셀을 다 쫓는 대신, **물체의 가장자리나 중요한 선들 (예: 건물의 모서리, 사람의 윤곽)**만 쫓습니다. 이를 '매칭 라인'이라고 부릅니다.
  • 효과: 복잡한 배경에서도 물체의 구조가 무너지지 않습니다. 마치 지도에서 주요 도로만 따라가면 길을 잃지 않는 것과 같습니다.

🚀 3. 결과: 무엇이 달라졌나요?

  • 고화질 지원: 4K(2560x1440) 같은 고해상도 영상에서도 글자나 번호판 같은 미세한 디테일이 살아있습니다.
  • 빠른 속도: 다른 AI 들은 그림을 그릴 때 여러 번 반복해서 수정해야 했지만, 이 기술은 10 번만 그려도 완벽합니다. (마치 숙련된 화가가 한 번에 그리는 것과 같습니다.)
  • 자연스러운 움직임: 유령처럼 흐릿한 그림이나 뭉개진 형태가 사라지고, 실제 촬영한 것처럼 자연스러운 슬로우 모션 영상이 만들어집니다.

💡 한 줄 요약

"FC-VFI 는 시작과 끝을 꽉 잡고, 물체의 핵심 선을 따라가며, 중간 그림들이 서로 자연스럽게 연결되도록 가르쳐서, 고화질에서도 깨지지 않는 완벽한 슬로우 모션 영상을 만들어내는 기술입니다."

이 기술은 영화 제작, 게임, 혹은 우리가 찍은 일상 영상을 더 아름답게 만들어주는 데 큰 도움이 될 것입니다.