Arbitrary Generative Video Interpolation

이 논문은 기존 생성형 비디오 프레임 보간 방법의 고정된 프레임 수 및 재생 속도 제한을 극복하기 위해, 임의의 시간점과 길이에 따른 보간을 가능하게 하는 'TaRoPE'와 '외관 - 운동 분리 조건화 전략'을 도입한 새로운 프레임워크 'ArbInterp'를 제안합니다.

Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 기술의 문제점: "고정된 레시피"

지금까지의 영상 생성 기술은 마치 고정된 레시피를 가진 요리사 같았습니다.

  • 상황: "시작 (A)"과 "끝 (B)"이라는 두 장면을 주면, 요리사는 "그 사이를 3 단계로 나누어 중간 요리 (프레임) 를 만들어줘"라고만 할 수 있었습니다.
  • 문제: 만약 사용자가 "그 사이를 100 단계로 아주 천천히 보여줘"라고 하거나, "0.3 초 지점의 장면을 딱 하나만 보여줘"라고 요청하면, 기존 기술은 이를 처리할 수 없었습니다. 마치 3 단계를 만드는 레시피만 있는 요리사가 100 단계를 만들려고 애쓰는 것과 비슷합니다.

2. ArbInterp 의 혁신: "자유로운 시간 여행"

이 논문이 제안한 ArbInterp는 완전히 다른 접근법을 사용합니다. 마치 시간 여행자가 시계를 마음대로 조절할 수 있는 것과 같습니다.

  • 핵심 아이디어: 시작을 '0 시', 끝을 '1 시'라고 정해두면, 그 사이의 0.25 시, 0.1234 시, 0.999 시아무 때나 장면을 만들어낼 수 있습니다.
  • 결과: 사용자가 원하는 대로 영상의 속도를 조절하거나 (프레임 레이트), 아주 긴 시간을 아주 정교하게 채워 넣을 수 있습니다.

3. 어떻게 가능한가요? (두 가지 핵심 기술)

① TaRoPE: "시간을 읽는 나침반"

기존 AI 모델은 "1 번째 장면, 2 번째 장면, 3 번째 장면"처럼 순서 번호만 기억했습니다. 하지만 ArbInterp 는 **실제 시간 (0~1 사이의 숫자)**을 기억하도록 만들었습니다.

  • 비유: 기존 모델이 "3 층, 4 층, 5 층"이라는 층수 번호만 보고 엘리베이터를 움직였다면, ArbInterp 는 **"3.5 층, 4.2 층"**처럼 정확한 높이를 알고 있습니다. 그래서 AI 는 "0.5 초 지점"이라는 명령을 받으면, 그 정확한 시간의 장면을 상상해 낼 수 있게 됩니다. 이를 **TaRoPE(시간 인식 회전 위치 임베딩)**라고 부릅니다.

② 외관과 움직임 분리: "연속된 영화 제작"

아주 긴 영상을 한 번에 만들면 AI 가 혼란스러워해서 장면과 장면이 끊기거나 (깜빡임), 움직임이 어색해질 수 있습니다.

  • 해결책: 긴 영상을 여러 조각 (세그먼트) 으로 나누어 만들되, 이전 조각의 마지막 장면을 '시작점'으로 삼고, 이전 조각의 움직임 흐름을 '지시자'로 삼아 다음 조각을 이어줍니다.
  • 비유: 마치 연속된 만화책을 그릴 때, 이전 페이지의 마지막 그림을 보고 다음 페이지를 그리면서, 캐릭터의 표정 (외관) 은 그대로 유지하고, 손이 움직이는 방향 (움직임) 은 자연스럽게 이어지도록 하는 것과 같습니다. 이를 외관 - 움직임 분리 전략이라고 합니다.

4. 왜 이것이 중요한가요?

이 기술은 영상 제작자들에게 완벽한 자유를 줍니다.

  • 게임: 게임 캐릭터의 움직임을 아주 부드럽게 (고주사율) 만들어 줄 수 있습니다.
  • 영화/광고: 감독이 "이 장면에서 1 초를 10 초로 늘려서 천천히 보여줘"라고 하면, AI 가 그 사이에 자연스럽게 움직이는 장면을 채워줍니다.
  • 실시간 스트리밍: 실시간으로 들어오는 영상에 끊김 없이 중간 장면을 채워 넣어 끊김 없는 영상을 보여줄 수 있습니다.

요약

이 논문은 **"시작과 끝만 주면, 그 사이의 시간을 마음대로 조절하며 어떤 순간이든, 얼마나 길게든 자연스럽게 이어지는 영상을 만들어주는 새로운 AI"**를 소개했습니다. 마치 시간을 자유롭게 조종할 수 있는 마법 지팡이를 영상 제작자에게 준 것과 같습니다.