Accelerating Text-to-Video Generation with Calibrated Sparse Attention

이 논문은 비디오 생성 모델의 느린 추론 속도를 해결하기 위해, 입력과 무관하게 일관되게 나타나는 희소성 패턴을 오프라인 보정을 통해 사전 식별하고 하드웨어 효율적으로 생략함으로써 학습 없이도 비디오 생성 품질을 유지하면서 최대 1.58 배의 속도 향상을 이루는 'CalibAtt' 방법을 제안합니다.

Shai Yehezkel, Shahar Yadin, Noam Elata, Yaron Ostrovsky-Berman, Bahjat Kawar

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: 거대한 도서관과 똑똑한 사서

비디오 생성 AI 가 영상을 만드는 과정을 상상해 보세요.
AI 는 마치 거대한 도서관에서 책 (정보) 을 찾아서 새로운 이야기를 (영상) 을 쓰는 작가와 같습니다.

1. 기존 방식의 문제: "모든 책을 다 읽는 미친 사서"

기존 AI 는 영상을 만들 때, 모든 단어와 모든 장면 사이의 관계를 100% 완벽하게 계산합니다.

  • 예를 들어, "파리의 카페에서 커피를 마시는 판다"라는 영상을 만들 때, AI 는 판다의 눈과 카페의 창문, 커피 잔, 배경의 나무 등 모든 요소가 서로 어떻게 연결되는지 하나하나 세세하게 계산합니다.
  • 문제는 대부분의 연결은 실제로 중요하지 않다는 것입니다. 판다의 눈이 카페 창문과 직접적인 관계가 있을까요? 아마 없을 겁니다. 하지만 AI 는 "모를 수도 있으니" 계산을 다 해버립니다.
  • 그래서 시간이 너무 오래 걸리고, 컴퓨터가 과부하가 걸립니다.

2. 이 연구의 발견: "중요하지 않은 연결은 이미 정해져 있어!"

연구팀은 AI 가 영상을 만들 때의 패턴을 자세히 관찰하다가 놀라운 사실을 발견했습니다.

  • 반복되는 패턴: "판다"가 "카페"를 볼 때, AI 는 항상 같은 방식으로만 연결을 계산합니다.
  • 무의미한 연결: 대부분의 경우, AI 는 어떤 부분끼리는 전혀 관계를 맺지 않아도 된다는 것을 이미 알고 있습니다.
  • 마치 도서관 사서가 "이 책과 저 책은 전혀 관련이 없으니, 두 권을 비교하는 시간은 아껴도 된다"고 미리 알고 있는 것과 같습니다.

3. 해결책: "칼리브레이티드 어텐션 (CalibAtt)"

이 연구팀은 AI 를 훈련시키지 않고도 (Training-free), 한 번만 미리 계산해 두면 그 패턴을 그대로 쓸 수 있는 방법을 고안했습니다.

  • 1 단계: 사전 조사 (Calibration)

    • AI 가 다양한 영상을 만들 때, 어떤 부분끼리는 계산을 건너뛰어도 결과가 똑같는지 미리 테스트해 봅니다.
    • 마치 "이 도서관에서는 A 구역과 B 구역은 절대 서로 섞이지 않으니, 두 구역을 오가는 사서 (계산) 는 줄여도 된다"는 **지도 (마스크)**를 미리 그려두는 것입니다.
    • 이 지도는 입력된 문장 (프롬프트) 이 무엇이든 상관없이 거의 동일하게 적용됩니다.
  • 2 단계: 빠른 실행 (Inference)

    • 실제 영상을 만들 때는, 미리 그려둔 지도를 보고 중요하지 않은 계산은 아예 하지 않고 넘어갑니다.
    • 중요한 부분만 집중해서 계산하므로, 계산량이 60~70% 이상 줄어듭니다.

🚀 어떤 효과가 있나요?

이 방법을 적용하면 다음과 같은 놀라운 변화가 일어납니다:

  1. 속도 1.5 배 이상 빨라짐: 영상을 만드는 시간이 20 분에서 13 분으로, 혹은 6 분에서 4 분으로 줄어듭니다. (예: 20 분 걸리던 것이 13 분으로 단축)
  2. 화질은 그대로: 불필요한 계산을 뺀다고 해서 영상이 흐릿해지거나 문맥이 깨지지 않습니다. "판다"가 여전히 "카페"에 잘 앉아 있습니다.
  3. 기존 AI 에 바로 적용 가능: AI 모델을 다시 훈련시킬 필요가 없습니다. 이미 만들어진 최신 AI 모델 (Wan 2.1, Mochi 1 등) 에 바로 적용할 수 있습니다.

💡 핵심 요약

이 논문은 **"AI 가 영상을 만들 때, 매번 모든 것을 계산할 필요는 없다"**는 사실을 발견했습니다.

"한 번 미리 '어디를 건너뛰어도 되는지' 지도를 그려두면, AI 는 그 지도를 보고 불필요한 일을 하지 않고 훨씬 빠르게 영상을 만들 수 있다."

이는 마치 비행기 조종사가 매번 모든 기계를 수동으로 점검하는 대신, 안전이 보장된 부분은 자동화 시스템에 맡겨 비행 시간을 단축하는 것과 같은 원리입니다. 덕분에 우리는 더 빠르고 쉽게 고퀄리티 영상을 만들 수 있게 되었습니다.