FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

이 논문은 비디오 생성 시 발생하는 토큰 폭주 문제를 해결하기 위해 공간적 및 시간적 유사성을 기반으로 불필요한 연산을 생략하는 'FastSTAR'라는 훈련 없는 가속화 프레임워크를 제안하여, 성능 저하 없이 비디오 합성 속도를 최대 2.01 배까지 향상시킨다고 설명합니다.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 FastSTAR: 비디오 만들기를 '스마트하게' 빠르게 하는 마법

안녕하세요! 오늘 소개해 드릴 논문은 FastSTAR라는 이름의 기술에 대한 것입니다. 이 기술은 인공지능이 영상을 만들 때, 품질은 그대로 유지하면서 속도를 2 배 이상 빠르게 만들어주는 놀라운 방법입니다.

어떻게 가능할까요? 마치 고급 요리사가 요리를 할 때, 모든 재료를 다 섞어서 끓이는 대신, 어떤 부분은 이미 맛을 냈으니 건드리지 않고, 중요한 부분만 집중해서 조리하는 것과 비슷합니다.


1. 문제점: "왜 이렇게 오래 걸려요?" (토큰 폭발)

기존의 최신 AI 비디오 생성 모델 (InfinityStar 같은 것들) 은 영상을 만들 때 아주 정교하게, 단계별로 그림을 그려갑니다.

  • 비유: 그림을 그릴 때, 먼저 대충 윤곽을 그리고 (저해상도), 점점 더 디테일을 추가해 가며 (고해상도) 완성하는 방식입니다.

하지만 문제는 마지막 단계입니다.

  • 상황: 그림이 거의 완성되었을 때, AI 는 "아, 이 부분도 조금 더 다듬어야지"라고 생각하며 모든 픽셀을 다시 계산합니다.
  • 결과: 영상은 5 초 정도인데, 80 초 이상이 걸립니다. 특히 마지막 4 단계에서 전체 시간의 **81%**를 낭비합니다. 이를 논문에서는 **'토큰 폭발 (Token Explosion)'**이라고 부릅니다. (너무 많은 정보를 동시에 처리하려다 병목이 생기는 거죠.)

2. 해결책: FastSTAR 의 두 가지 핵심 전략

FastSTAR 는 이 비효율적인 과정을 스마트하게 바꿉니다. 두 가지 핵심 아이디어를 사용합니다.

🧠 전략 1: "이미 완성된 곳은 건드리지 마세요" (시공간 토큰 가지치기)

AI 가 영상을 만들 때, 모든 부분이 계속 변하는 것은 아닙니다.

  • 공간적 유사성 (Spatial Similarity): 배경의 하늘이나 바위처럼 이미 다 그려진 정적인 부분은 더 이상 계산할 필요가 없습니다.
  • 시간적 유사성 (Temporal Similarity): 움직이는 사람이나 자동차처럼 움직이는 부분은 계속 계산해야 하지만, 움직이지 않는 부분은 건너뛸 수 있습니다.

🌰 비유:
화가가 캔버스에 바다를 그릴 때, 파란 하늘과 멀리 있는 산은 이미 다 그렸으니 (변하지 않으니) 붓을 대지 않습니다. 대신 파도 치는 물결이나 배의 움직임에만 집중해서 붓질을 합니다.
FastSTAR 는 AI 가 "어디가 변하고, 어디가 안 변하는지"를 실시간으로 파악해서, 안 변하는 부분은 아예 계산을 건너뛰게 (Pruning) 만듭니다.

🛠 전략 2: "잘린 부분은 빈칸으로 채우지 말고, 예전 그대로 두세요" (부분 업데이트)

그림을 그릴 때 일부를 지우고 다시 그리는 방식 (토크 머지) 은 원래 그림을 망가뜨릴 수 있습니다.

  • FastSTAR 는 지운 부분을 **아무것도 없는 빈칸 (0)**으로 채우는 게 아니라, 이전 단계에서 이미 완성된 그림 그대로를 가져다 붙입니다.
  • 비유: 벽을 칠할 때, 이미 잘 칠해진 벽면은 다시 페인트를 바르지 않고, 새로 칠해야 할 구석진 부분과 문틀만 페인트를 바르는 것과 같습니다. 이렇게 하면 그림이 뭉개지지 않고 선명하게 유지됩니다.

3. 실제 효과: 얼마나 빨라졌나요?

이 기술을 적용한 결과, 놀라운 변화가 일어났습니다.

  • 속도: 720p 해상도의 5 초 영상을 만드는 데 걸리는 시간이 81.7 초에서 40.6 초로 줄었습니다. (약 2 배 빠름 🚀)
  • 화질: 속도가 두 배가 됐는데, 화질은 거의 떨어지지 않았습니다. (PSNR 점수 28.29 로 매우 선명함)
  • 적용: 텍스트로 영상을 만드는 것 (Text-to-Video) 이나, 사진으로 영상을 만드는 것 (Image-to-Video) 모두에서 효과가 입증되었습니다.

4. 요약: 왜 이 기술이 중요한가요?

기존 방법들은 "모든 것을 다 계산해서 정확도를 높이려다" 너무 느렸습니다. 하지만 FastSTAR"무엇이 중요한지 알고, 중요하지 않은 것은 과감히 생략하는" 지혜를 발휘했습니다.

  • 기존 방식: 모든 재료를 다 섞어서 끓이다가, 마지막에 맛을 본 뒤 다시 다 끓이는 것. (시간 낭비)
  • FastSTAR 방식: 이미 맛난 국물은 건드리지 않고, 새로 들어갈 재료만 넣고 끓이는 것. (효율 극대화)

이 기술 덕분에 앞으로 우리가 AI 로 고화질 영상을 만들 때, 기다리는 시간이 절반으로 줄어들고, 더 많은 창의적인 영상을 빠르게 만들어낼 수 있게 되었습니다. 마치 스마트한 요리사가 등장하여 요리의 속도와 맛을 모두 잡은 것과 같습니다! 🍳✨