AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation

본 논문은 250 여 편 이상의 대표 논문을 분석하여 비디오 프레임 보간 (VFI) 기술의 발전 과정, 주요 분류 체계, 핵심 과제, 데이터셋 및 평가 지표, 그리고 향후 연구 방향을 포괄적으로 정리한 'AceVFI'라는 종합적인 조사를 제시합니다.

Dahyeon Kye, Changhyun Roh, Sukhun Ko, Chanho Eom, Jihyong Oh

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 이 기술이 뭐예요? (비디오 프레임 보간)

상상해 보세요. 친구가 찍은 영상을 재생했는데, 움직임이 너무 뚝뚝 끊겨서 거북하게 보인다고 합시다. 마치 옛날 만화책처럼 한 장, 한 장 넘겨야 하는 느낌이에요.

**비디오 프레임 보간 (VFI)**은 이 뚝뚝 끊긴 영상 사이에 새로운 장면을 '창조'해서 넣어주는 마법과 같습니다.

  • 예시: 1 초에 30 장 (30fps) 이던 영상을, AI 가 중간에 7 장을 새로 그려서 1 초에 30+7=37 장 (실제로는 240fps 등) 으로 만들어줍니다.
  • 결과: 영상이 훨씬 매끄럽고, 슬로우 모션처럼 부드럽게 변합니다. 스포츠 중계나 VR 게임에서 이 기술이 없다면 화면이 끊겨서 게임을 할 수 없을 정도로 거칠어집니다.

2. 과거 vs 현재: 어떻게 발전했나요?

논문은 이 기술의 역사를 세 가지 시대로 나누어 설명합니다.

  • 1. 고전 시대 (수동 조종):

    • 비유: 옛날 시계공이 톱니바퀴를 하나하나 손으로 맞추는 것처럼, 컴퓨터가 "이 물체가 저쪽으로 5 픽셀 이동했네"라고 직접 계산해서 중간 그림을 그렸습니다.
    • 단점: 물체가 너무 빠르게 움직이거나 가려지면 (예: 사람 뒤에 다른 사람이 지나가면) 계산이 엉망이 되어 그림이 찌그러지거나 구멍이 났습니다.
  • 2. 딥러닝 시대 (스마트 학습):

    • 비유: 이제 컴퓨터가 수만 개의 영상을 보고 **"직감"**을 키웠습니다.
    • 핵심 기술들:
      • 흐름 (Flow) 기반: 물체의 움직임을 화살표 (흐름) 로 그려서 중간 위치를 정확히 찾습니다. (가장 많이 쓰임)
      • 커널 (Kernel) 기반: 작은 창을 만들어 주변 픽셀들을 섞어서 새로운 그림을 만듭니다.
      • 트랜스포머/메이브 (Transformer/Mamba): 최근의 최신 기술로, 영상의 전체적인 맥락을 파악하고 긴 시간 동안의 움직임도 잘 기억합니다. (마치 영화를 한 번에 다 보고 줄거리를 이해하는 것 같죠)
      • 확산 모델 (Diffusion): 그림을 그릴 때 처음엔 흐릿하게 시작하다가 점점 선명하게 만들어가는 방식입니다. (미드저니 같은 AI 그림 생성기와 비슷합니다)

3. 두 가지 주요 방식 (중간 시간 vs 임의 시간)

논문은 이 기술을 두 가지 방식으로 분류합니다.

  • A. 중앙 시간 보간 (CTFI):

    • 비유: 두 장의 사진 (A, B) 을 주고, **"정확히 중간 (A 와 B 사이)"**에 있는 사진을 하나만 그려달라고 하는 거예요.
    • 단점: 1/4 지점이나 3/4 지점 같은 다른 위치를 원하면, 다시 중간을 그린 다음 그걸 기준으로 또 그리는 식으로 계속 반복해야 해서 느리고 오류가 쌓입니다.
  • B. 임의 시간 보간 (ATFI):

    • 비유: "A 와 B 사이 어디든 (1/4, 1/3, 0.9 등) 원하는 시간에 사진을 그려줘!"라고 하면, 한 번에 바로 그 위치를 그려줍니다.
    • 장점: 훨씬 유연하고 빠릅니다. 슬로우 모션을 만들 때 아주 세밀하게 조절할 수 있어요.

4. 어려운 점들 (AI 가 겪는 고난)

물론 AI 가 모든 걸 완벽하게 하기는 어렵습니다. 논문은 주요 난관들을 4 가지 상황으로 설명합니다.

  1. 큰 움직임 (Large Motion): 물체가 화면을 가로질러 아주 빠르게 날아갈 때, AI 는 "어디로 갔지?"라고 헷갈려서 그림이 번지거나 꼬입니다.
  2. 가림 현상 (Occlusion): 사람이 지나가서 뒤에 있던 물체가 가려졌다가 다시 나타날 때, 가려진 부분의 내용을 AI 가 어떻게 그려낼지 고민해야 합니다. (마치 가려진 그림의 빈칸을 채우는 퍼즐 같아요)
  3. 빛의 변화 (Lighting Variation): 해가 떠서 밝아지거나, 그림자가 생기면 색이 변합니다. AI 는 "물체가 변한 건가, 빛이 변한 건가?"를 구분하기 어렵습니다.
  4. 비선형 운동 (Non-linear Motion): 공이 튀거나 물결치는 것처럼 일직선이 아닌 복잡한 움직임을 예측하는 것은 여전히 어렵습니다.

5. 데이터와 평가 (시험 문제와 채점)

이 기술이 잘 작동하는지 확인하기 위해 수많은 영상 데이터셋을 사용합니다.

  • 시험 문제: 사람, 자동차, 애니메이션, 의료 영상 등 다양한 상황을 담은 영상들입니다.
  • 채점 기준:
    • 픽셀 정확도: 원본과 숫자로 얼마나 비슷한가? (PSNR)
    • 눈에 보이는 자연스러움: 사람이 봤을 때 얼마나 리얼한가? (LPIPS)
    • 논문의 결론: 숫자로 완벽한 그림 (고 PSNR) 이 항상 눈에 보기 좋은 그림은 아닙니다. 때로는 AI 가 상상력을 발휘해 더 선명하고 자연스러운 그림을 그릴 때, 숫자 점수는 낮지만 사람이 더 좋아합니다.

6. 앞으로의 전망 (미래는 어디로?)

이 기술은 이제 영상 편집을 넘어 더 넓은 곳으로 가고 있습니다.

  • 스트리밍 서비스: 화질이 낮은 영상도 전송하고, 사용자의 기기에서 AI 가 중간 프레임을 채워주면 데이터 비용은 줄이고 화질은 높일 수 있습니다.
  • 의료 영상: CT 나 MRI 촬영 시간을 줄이고, AI 가 중간 영상을 만들어내면 환자는 덜 피곤하고 의사는 더 정확한 영상을 볼 수 있습니다.
  • 3D/4D 공간: 단순한 2D 영상을 넘어, VR/AR 에서 3D 공간의 깊이를 고려한 움직임을 만들어낼 것입니다.
  • 극한 환경: 물속이나 안개 낀 곳처럼 빛이 잘 안 통하는 곳에서도 작동하는 기술을 개발 중입니다.

요약

이 논문은 **"비디오의 끊김을 없애고 매끄럽게 만드는 AI 기술"**이 어떻게 발전해 왔고, 현재 어떤 한계가 있으며, 앞으로 어떻게 우리 생활을 바꿀지 정리한 거대한 지도입니다.

과거에는 "계산"으로 움직임을 찾았다면, 이제는 "학습"과 "상상력 (생성형 AI)"을 통해 더 자연스럽고 복잡한 움직임까지 만들어내고 있습니다. 이 기술이 발전하면 우리가 보는 모든 영상이 더 생생하고 매끄러워질 것입니다.