AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation

Each language version is independently generated for its own context, not a direct translation.

1. 이 기술이 뭐예요? (비디오 프레임 보간)

상상해 보세요. 친구가 찍은 영상을 재생했는데, 움직임이 너무 뚝뚝 끊겨서 거북하게 보인다고 합시다. 마치 옛날 만화책처럼 한 장, 한 장 넘겨야 하는 느낌이에요.

**비디오 프레임 보간 (VFI)**은 이 뚝뚝 끊긴 영상 사이에 새로운 장면을 '창조'해서 넣어주는 마법과 같습니다.

예시: 1 초에 30 장 (30fps) 이던 영상을, AI 가 중간에 7 장을 새로 그려서 1 초에 30+7=37 장 (실제로는 240fps 등) 으로 만들어줍니다.
결과: 영상이 훨씬 매끄럽고, 슬로우 모션처럼 부드럽게 변합니다. 스포츠 중계나 VR 게임에서 이 기술이 없다면 화면이 끊겨서 게임을 할 수 없을 정도로 거칠어집니다.

2. 과거 vs 현재: 어떻게 발전했나요?

논문은 이 기술의 역사를 세 가지 시대로 나누어 설명합니다.

1. 고전 시대 (수동 조종):
- 비유: 옛날 시계공이 톱니바퀴를 하나하나 손으로 맞추는 것처럼, 컴퓨터가 "이 물체가 저쪽으로 5 픽셀 이동했네"라고 직접 계산해서 중간 그림을 그렸습니다.
- 단점: 물체가 너무 빠르게 움직이거나 가려지면 (예: 사람 뒤에 다른 사람이 지나가면) 계산이 엉망이 되어 그림이 찌그러지거나 구멍이 났습니다.
2. 딥러닝 시대 (스마트 학습):
- 비유: 이제 컴퓨터가 수만 개의 영상을 보고 **"직감"**을 키웠습니다.
- 핵심 기술들:
  - 흐름 (Flow) 기반: 물체의 움직임을 화살표 (흐름) 로 그려서 중간 위치를 정확히 찾습니다. (가장 많이 쓰임)
  - 커널 (Kernel) 기반: 작은 창을 만들어 주변 픽셀들을 섞어서 새로운 그림을 만듭니다.
  - 트랜스포머/메이브 (Transformer/Mamba): 최근의 최신 기술로, 영상의 전체적인 맥락을 파악하고 긴 시간 동안의 움직임도 잘 기억합니다. (마치 영화를 한 번에 다 보고 줄거리를 이해하는 것 같죠)
  - 확산 모델 (Diffusion): 그림을 그릴 때 처음엔 흐릿하게 시작하다가 점점 선명하게 만들어가는 방식입니다. (미드저니 같은 AI 그림 생성기와 비슷합니다)

3. 두 가지 주요 방식 (중간 시간 vs 임의 시간)

논문은 이 기술을 두 가지 방식으로 분류합니다.

A. 중앙 시간 보간 (CTFI):
- 비유: 두 장의 사진 (A, B) 을 주고, **"정확히 중간 (A 와 B 사이)"**에 있는 사진을 하나만 그려달라고 하는 거예요.
- 단점: 1/4 지점이나 3/4 지점 같은 다른 위치를 원하면, 다시 중간을 그린 다음 그걸 기준으로 또 그리는 식으로 계속 반복해야 해서 느리고 오류가 쌓입니다.
B. 임의 시간 보간 (ATFI):
- 비유: "A 와 B 사이 어디든 (1/4, 1/3, 0.9 등) 원하는 시간에 사진을 그려줘!"라고 하면, 한 번에 바로 그 위치를 그려줍니다.
- 장점: 훨씬 유연하고 빠릅니다. 슬로우 모션을 만들 때 아주 세밀하게 조절할 수 있어요.

4. 어려운 점들 (AI 가 겪는 고난)

물론 AI 가 모든 걸 완벽하게 하기는 어렵습니다. 논문은 주요 난관들을 4 가지 상황으로 설명합니다.

큰 움직임 (Large Motion): 물체가 화면을 가로질러 아주 빠르게 날아갈 때, AI 는 "어디로 갔지?"라고 헷갈려서 그림이 번지거나 꼬입니다.
가림 현상 (Occlusion): 사람이 지나가서 뒤에 있던 물체가 가려졌다가 다시 나타날 때, 가려진 부분의 내용을 AI 가 어떻게 그려낼지 고민해야 합니다. (마치 가려진 그림의 빈칸을 채우는 퍼즐 같아요)
빛의 변화 (Lighting Variation): 해가 떠서 밝아지거나, 그림자가 생기면 색이 변합니다. AI 는 "물체가 변한 건가, 빛이 변한 건가?"를 구분하기 어렵습니다.
비선형 운동 (Non-linear Motion): 공이 튀거나 물결치는 것처럼 일직선이 아닌 복잡한 움직임을 예측하는 것은 여전히 어렵습니다.

5. 데이터와 평가 (시험 문제와 채점)

이 기술이 잘 작동하는지 확인하기 위해 수많은 영상 데이터셋을 사용합니다.

시험 문제: 사람, 자동차, 애니메이션, 의료 영상 등 다양한 상황을 담은 영상들입니다.
채점 기준:
- 픽셀 정확도: 원본과 숫자로 얼마나 비슷한가? (PSNR)
- 눈에 보이는 자연스러움: 사람이 봤을 때 얼마나 리얼한가? (LPIPS)
- 논문의 결론: 숫자로 완벽한 그림 (고 PSNR) 이 항상 눈에 보기 좋은 그림은 아닙니다. 때로는 AI 가 상상력을 발휘해 더 선명하고 자연스러운 그림을 그릴 때, 숫자 점수는 낮지만 사람이 더 좋아합니다.

6. 앞으로의 전망 (미래는 어디로?)

이 기술은 이제 영상 편집을 넘어 더 넓은 곳으로 가고 있습니다.

스트리밍 서비스: 화질이 낮은 영상도 전송하고, 사용자의 기기에서 AI 가 중간 프레임을 채워주면 데이터 비용은 줄이고 화질은 높일 수 있습니다.
의료 영상: CT 나 MRI 촬영 시간을 줄이고, AI 가 중간 영상을 만들어내면 환자는 덜 피곤하고 의사는 더 정확한 영상을 볼 수 있습니다.
3D/4D 공간: 단순한 2D 영상을 넘어, VR/AR 에서 3D 공간의 깊이를 고려한 움직임을 만들어낼 것입니다.
극한 환경: 물속이나 안개 낀 곳처럼 빛이 잘 안 통하는 곳에서도 작동하는 기술을 개발 중입니다.

요약

이 논문은 **"비디오의 끊김을 없애고 매끄럽게 만드는 AI 기술"**이 어떻게 발전해 왔고, 현재 어떤 한계가 있으며, 앞으로 어떻게 우리 생활을 바꿀지 정리한 거대한 지도입니다.

과거에는 "계산"으로 움직임을 찾았다면, 이제는 "학습"과 "상상력 (생성형 AI)"을 통해 더 자연스럽고 복잡한 움직임까지 만들어내고 있습니다. 이 기술이 발전하면 우리가 보는 모든 영상이 더 생생하고 매끄러워질 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

**비디오 프레임 보간 (Video Frame Interpolation, VFI)**은 기존 연속된 프레임 사이에 하나 이상의 중간 프레임을 합성하여 비디오의 시간적 해상도 (프레임 레이트) 를 높이는 저수준 비전 (Low-Level Vision) 작업입니다.

핵심 목표: 공간적 (Spatial) 과 시간적 (Temporal) 일관성을 유지하면서 자연스러운 모션 (Motion) 을 생성하는 것입니다.
주요 도전 과제:
- 대규모 운동 (Large Motion): 프레임 간 객체의 이동 거리가 커질 때 정확한 대응 관계 (Correspondence) 를 찾기 어려움.
- 가림 (Occlusion): 중간 프레임에서 두 입력 프레임 모두에 보이지 않는 영역 (Disocclusion) 의 내용 생성.
- 조명 변화 (Lighting Variation): 밝기 일정성 (Brightness Constancy) 가 깨지는 상황에서의 모션 추정 오차.
- 비선형 운동 (Non-linear Motion): 가속, 감속, 곡선 궤적 등 단순한 선형 운동 가정을 위반하는 복잡한 움직임.
필요성: 슬로우 모션 생성, 비디오 압축, 가상 현실 (VR), 실시간 스트리밍 등 다양한 응용 분야에서 필수적이며, 저프레임 레이트 (LFR) 촬영 시 추가적인 하드웨어 없이 고품질 고프레임 레이트 (HFR) 콘텐츠를 생성할 수 있는 유일한 방법입니다.

2. 방법론 및 분류 체계 (Methodology & Taxonomy)

저자는 250 편 이상의 대표 논문을 분석하여 VFI 기술을 다음과 같이 체계적으로 분류했습니다.

A. 기술적 진화 (Methodological Evolution)

전통적 모션 보상 기반 (Classical Motion Compensation): 블록 매칭이나 파라메트릭 모델을 사용하여 명시적으로 모션을 추정하고 워핑 (Warping) 하는 방식. 단순한 운동에는 효과적이지만, 가림이나 비선형 운동 처리에 한계가 있음.
딥러닝 기반 (Deep Learning-based):
- 커널 기반 (Kernel-based): 명시적인 광학 흐름 (Optical Flow) 대신 공간 적응형 합성곱 커널을 예측하여 픽셀을 합성. (예: AdaConv, SepConv). 국소적 영역에서 강건하지만 큰 운동 범위에는 제약이 있음.
- 흐름 기반 (Flow-based): 광학 흐름을 명시적으로 추정하여 입력 프레임을 시간적으로 정렬 (Temporal Alignment) 후 합성. (예: DAIN, RIFE). 운동 궤적을 명확하게 모델링하지만 흐름 추정 오차에 민감함.
- 하이브리드 (Hybrid): 흐름으로 전역적 정렬을 하고 커널로 국소적 정교화를 수행하여 두 방법의 장점을 결합.
- 기타 접근법: 위상 기반 (Phase-based), GAN 기반 (GAN-based), Transformer 기반 (Attention mechanism 활용), Mamba 기반 (SSM 활용, 효율적 장기 의존성 모델링).
생성 모델 기반 (Diffusion Models): 최근 등장한 접근법으로, VFI 를 조건부 디노이징 과정으로 재정의. 불확실성을 고려한 보간과 의미론적으로 다양한 프레임 생성이 가능하며, 'Generative Inbetweening' 개념을 확장함.

B. 학습 패러다임 (Learning Paradigms)

중심 시간 프레임 보간 (CTFI): 두 입력 프레임의 정중앙 ( $t=0.5$ ) 만 예측. 학습이 간단하지만 임의의 시간 ( $t \in (0,1)$ ) 에 대한 보간에는 재귀적 추론이 필요하여 누적 오차 발생.
임의 시간 프레임 보간 (ATFI): 시간 변수 $t$ 를 입력으로 받아 임의의 시점에 프레임을 직접 생성. 더 유연하지만 고프레임 레이트 데이터셋이 필요하고 속도 불명확성 (Velocity Ambiguity) 문제가 존재함.

3. 주요 기여 (Key Contributions)

AceVFI 프로젝트 및 포괄적 리뷰: 2026 년 기준 최신 기술 (Transformer, Mamba, Diffusion 모델 포함) 을 아우르는 250 편 이상의 논문을 체계적으로 정리한 최초의 포괄적 서베이.
세분화된 분류 체계: 단순한 연도별 정리가 아닌, 핵심 설계 원리 (커널, 흐름, 하이브리드 등) 와 학습 패러다임 (CTFI vs ATFI) 에 기반한 정교한 분류 체계 제시.
실용적 리소스 제공:
- 표준 데이터셋 (Triplet, Multi-frame) 과 평가 지표 (이미지 수준, 지각 수준, 비디오 수준) 에 대한 상세 분석.
- 최신 모델들의 정량적 성능 비교 (PSNR, LPIPS) 및 효율성 (파라미터 수, FLOPs, 추론 시간) 분석 테이블 제공.
- GitHub 프로젝트 페이지 (Awesome-Video-Frame-Interpolation) 를 통해 지속적으로 업데이트되는 리소스 유지.
도전 과제 및 미래 방향 제시: VFI 의 주요 난제 (대규모 운동, 가림 등) 에 대한 최신 해결 전략을 분석하고, 스트리밍 서비스, 3D/4D 씬 이해, 물리 정보 기반 VFI 등 미래 연구 방향을 제시.

4. 결과 및 분석 (Results & Analysis)

성능 트레이드오프:
- 회귀 기반 모델 (Flow/Transformer/Mamba): 높은 PSNR 을 보이며 픽셀 단위 정밀도가 우수함. 특히 RIFE, IFRNet, VFIMamba 등은 효율성과 정확도 면에서 뛰어난 성능을 보임.
- 생성 기반 모델 (Diffusion): PSNR 은 상대적으로 낮을 수 있으나, LPIPS(지각적 유사도) 점수가 우수하여 더 선명하고 자연스러운 텍스처를 생성함. 특히 가림이나 복잡한 모션 상황에서 지각적 타당성 (Perceptual Plausibility) 이 높음.
효율성: Transformer 기반 모델은 높은 계산 비용 (GFLOPs) 을 요구하는 반면, Mamba 기반 모델은 유사한 정확도를 유지하면서 계산 비용을 크게 절감함. Diffusion 모델은 추론 속도가 느려 실시간 응용에는 아직 한계가 있음.
데이터셋: Vimeo90K, Xiph, SNU-FILM 등 다양한 벤치마크에서 각 방법론의 강점과 약점이 명확히 드러남 (예: 커널 기반은 작은 운동에 강함, 흐름 기반은 대규모 운동에 강함).

5. 의의 및 중요성 (Significance)

연구자들의 가이드북: VFI 분야의 급속한 발전을 따라가기 어려운 연구자와 실무자에게 현재 기술 지형 (Landscape) 을 한눈에 파악할 수 있는 표준 참조 자료 역할을 함.
응용 분야 확장: 단순한 프레임 보간을 넘어, 의료 영상 (4D 재구성), 애니메이션 제작, 이벤트 카메라 기반 VFI, 저조도/수중 환경 등 특수한 응용 분야로의 확장을 위한 기초를 마련함.
미래 기술의 초석: VFI 는 비디오 압축, VR/AR, 생성형 AI(Video Generation) 의 핵심 구성 요소로 자리 잡았으며, 본 논서는 이러한 기술들이 직면한 한계와 해결 과제를 명확히 제시하여 차세대 연구의 방향성을 제시합니다.

이 논문은 VFI 기술이 단순한 신호 처리 단계를 넘어, 복잡한 모션 모델링과 생성적 AI 가 결합된 핵심 저수준 비전 분야로 진화했음을 보여주며, 향후 더 정교하고 효율적인 비디오 합성 기술 개발을 위한 중요한 이정표가 됩니다.