Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.

Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 롤링 싱크 (Rolling Sink): 짧은 훈련으로 만든 '무한' 비디오의 비밀

이 논문은 자율 생성형 (Autoregressive) 비디오 생성 AI가 가진 치명적인 단점을 해결한 획기적인 방법을 소개합니다. 바로 **'롤링 싱크 (Rolling Sink)'**라는 기술입니다.

이걸 이해하기 위해 먼저 비유를 하나 해보겠습니다.

🎬 상황 설정: "5 분짜리 영화 배우" vs "30 분짜리 장편 영화"

지금까지의 AI 비디오 생성 모델들은 마치 5 분짜리 단편 영화만 찍어본 배우와 같습니다.

  • 훈련 (Training): AI 는 5 초~1 분짜리 짧은 영상만 보고 배우는 훈련을 받았습니다.
  • 테스트 (Testing): 그런데 사용자는 이 AI 에게 "이제부터 30 분 동안 계속 영상을 만들어줘"라고 요청합니다.

결과? 배우는 처음엔 잘하지만, 시간이 지날수록 망가집니다.

  • 얼굴이 왜곡되거나 (Subject Drift)
  • 색상이 과하게 번지거나 (Over-saturated colors)
  • 구조가 무너지거나 (Collapsed structures)
  • 심지어 같은 장면을 반복해서 찍는 (Repetition) 끔찍한 상황이 발생합니다.

이를 논문에서는 **"AR 드리프트 (AR Drift)"**라고 부르며, 이는 훈련된 짧은 시간과 테스트하려는 긴 시간 사이의 괴리에서 비롯된다고 설명합니다.


💡 해결책: "롤링 싱크 (Rolling Sink)"란 무엇인가?

이 연구팀은 AI 를 다시 훈련시키지 않고 (Training-free), 기억을 관리하는 방식을 바꿈으로써 이 문제를 해결했습니다.

1. 기존 방식의 문제: "고정된 기억 (Static Sink)"

기존의 최첨단 모델 (Self Forcing 등) 은 영상을 만들 때, **가장 처음 만든 몇 초 분량의 영상 (Sink)**을 기억의 구석에 고정해두고, 그걸 기준으로 계속 새로운 장면을 이어붙였습니다.

  • 비유: 마치 첫 장면을 영구적으로 벽에 붙여두고, 그 뒤에 계속 새로운 그림을 붙이는 것과 같습니다.
  • 문제: 시간이 지나면 처음 장면과 현재 장면의 '감각 (Semantics)'이 맞지 않아서, AI 가 혼란을 겪고 영상이 떨리거나 (Flicker) 망가집니다.

2. 롤링 싱크의 혁신: "회전하는 기억 (Rolling Memory)"

롤링 싱크는 이 고정된 기억을 움직이게 합니다.

  • 비유: 기억을 **회전하는 무대 (Rolling Stage)**나 스크롤 하는 뉴스처럼 생각합니다.
    • AI 는 "가장 오래된 기억"을 버리지 않고, 가장 최근의 '잘 만들어진' 기억을 계속 가져와서 기억의 앞부분에 새로이 배치합니다.
    • 마치 물레방아처럼, 기억의 내용을 계속 굴려가며 (Rolling) 최신의 상태만 유지하도록 합니다.
    • 또한, 시간의 흐름을 나타내는 '위치 정보'도 고정된 것이 아니라, 현재 시간에 맞춰 미끄러지듯 (Sliding) 업데이트됩니다.

✨ 왜 이것이 중요한가요?

이 간단한 '기억 관리' 전략 덕분에 놀라운 일이 일어났습니다.

  1. 5 초 훈련 = 30 분 생성: AI 는 고작 5 초짜리 영상으로만 훈련받았음에도, 30 분이나 되는 긴 영상을 생성할 수 있게 되었습니다.
  2. 일관성 유지: 시간이 지나도 주인공의 얼굴, 옷차림, 배경 색상이 변하지 않고 일관성을 유지합니다.
  3. 자연스러운 움직임: 영상이 떨리거나 (Flicker) 갑자기 반복되는 현상이 사라져서 매우 매끄럽습니다.
  4. 추가 훈련 불필요: AI 를 다시 가르칠 필요 없이, 기존 모델에 이 '기억 관리' 방식만 적용하면 됩니다.

📊 실제 성과 (실험 결과)

논문에서는 이 방법을 VBench-Long이라는 평가 기준으로 테스트했습니다.

  • 1 분 영상: 기존 최강 모델들보다 훨씬 높은 점수를 받았습니다.
  • 5 분 영상: 시간이 길어질수록 기존 모델들은 완전히 망가졌지만, 롤링 싱크는 여전히 선명한 영상을 만들어냈습니다.
  • 30 분 영상: 30 분짜리 영상까지 생성해도 주인공의 정체성과 구조가 무너지지 않았습니다.

🚀 결론

**"롤링 싱크"**는 AI 에게 "무한한 시간을 견디는 법"을 가르친 것이 아니라, **"기억을 어떻게 정리해야 오래갈 수 있는지"**를 알려준 것입니다.

마치 장기적인 여행을 떠날 때, 짐을 계속 정리하고 최신 정보만 챙겨야 길을 잃지 않는 것과 같습니다. 이 기술 덕분에 우리는 이제 AI 로서도 영화 한 편을 찍거나, 몇 시간 동안 이어지는 애니메이션을 만드는 것이 현실적으로 가능해졌습니다.

한 줄 요약:

짧은 훈련으로 긴 영상을 만드는 AI 가 망가지는 이유는 '기억'을 잘못 관리했기 때문인데, 이 논문은 그 기억을 계속 굴려가며 최신 상태로 유지하는 '롤링 싱크'라는 해결책을 제시했습니다.