Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: 거대한 도서관과 똑똑한 사서

비디오 생성 AI 가 영상을 만드는 과정을 상상해 보세요.
AI 는 마치 거대한 도서관에서 책 (정보) 을 찾아서 새로운 이야기를 (영상) 을 쓰는 작가와 같습니다.

1. 기존 방식의 문제: "모든 책을 다 읽는 미친 사서"

기존 AI 는 영상을 만들 때, 모든 단어와 모든 장면 사이의 관계를 100% 완벽하게 계산합니다.

예를 들어, "파리의 카페에서 커피를 마시는 판다"라는 영상을 만들 때, AI 는 판다의 눈과 카페의 창문, 커피 잔, 배경의 나무 등 모든 요소가 서로 어떻게 연결되는지 하나하나 세세하게 계산합니다.
문제는 대부분의 연결은 실제로 중요하지 않다는 것입니다. 판다의 눈이 카페 창문과 직접적인 관계가 있을까요? 아마 없을 겁니다. 하지만 AI 는 "모를 수도 있으니" 계산을 다 해버립니다.
그래서 시간이 너무 오래 걸리고, 컴퓨터가 과부하가 걸립니다.

2. 이 연구의 발견: "중요하지 않은 연결은 이미 정해져 있어!"

연구팀은 AI 가 영상을 만들 때의 패턴을 자세히 관찰하다가 놀라운 사실을 발견했습니다.

반복되는 패턴: "판다"가 "카페"를 볼 때, AI 는 항상 같은 방식으로만 연결을 계산합니다.
무의미한 연결: 대부분의 경우, AI 는 어떤 부분끼리는 전혀 관계를 맺지 않아도 된다는 것을 이미 알고 있습니다.
마치 도서관 사서가 "이 책과 저 책은 전혀 관련이 없으니, 두 권을 비교하는 시간은 아껴도 된다"고 미리 알고 있는 것과 같습니다.

3. 해결책: "칼리브레이티드 어텐션 (CalibAtt)"

이 연구팀은 AI 를 훈련시키지 않고도 (Training-free), 한 번만 미리 계산해 두면 그 패턴을 그대로 쓸 수 있는 방법을 고안했습니다.

1 단계: 사전 조사 (Calibration)
- AI 가 다양한 영상을 만들 때, 어떤 부분끼리는 계산을 건너뛰어도 결과가 똑같는지 미리 테스트해 봅니다.
- 마치 "이 도서관에서는 A 구역과 B 구역은 절대 서로 섞이지 않으니, 두 구역을 오가는 사서 (계산) 는 줄여도 된다"는 **지도 (마스크)**를 미리 그려두는 것입니다.
- 이 지도는 입력된 문장 (프롬프트) 이 무엇이든 상관없이 거의 동일하게 적용됩니다.
2 단계: 빠른 실행 (Inference)
- 실제 영상을 만들 때는, 미리 그려둔 지도를 보고 중요하지 않은 계산은 아예 하지 않고 넘어갑니다.
- 중요한 부분만 집중해서 계산하므로, 계산량이 60~70% 이상 줄어듭니다.

🚀 어떤 효과가 있나요?

이 방법을 적용하면 다음과 같은 놀라운 변화가 일어납니다:

속도 1.5 배 이상 빨라짐: 영상을 만드는 시간이 20 분에서 13 분으로, 혹은 6 분에서 4 분으로 줄어듭니다. (예: 20 분 걸리던 것이 13 분으로 단축)
화질은 그대로: 불필요한 계산을 뺀다고 해서 영상이 흐릿해지거나 문맥이 깨지지 않습니다. "판다"가 여전히 "카페"에 잘 앉아 있습니다.
기존 AI 에 바로 적용 가능: AI 모델을 다시 훈련시킬 필요가 없습니다. 이미 만들어진 최신 AI 모델 (Wan 2.1, Mochi 1 등) 에 바로 적용할 수 있습니다.

💡 핵심 요약

이 논문은 **"AI 가 영상을 만들 때, 매번 모든 것을 계산할 필요는 없다"**는 사실을 발견했습니다.

"한 번 미리 '어디를 건너뛰어도 되는지' 지도를 그려두면, AI 는 그 지도를 보고 불필요한 일을 하지 않고 훨씬 빠르게 영상을 만들 수 있다."

이는 마치 비행기 조종사가 매번 모든 기계를 수동으로 점검하는 대신, 안전이 보장된 부분은 자동화 시스템에 맡겨 비행 시간을 단축하는 것과 같은 원리입니다. 덕분에 우리는 더 빠르고 쉽게 고퀄리티 영상을 만들 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 확산 모델 (Diffusion Models) 은 고품질의 비디오 생성을 가능하게 했으나, 실행 시간 (Runtime) 이 매우 느리다는 치명적인 단점이 있습니다.

병목 현상: 비디오 생성에 사용되는 대규모 트랜스포머 백본은 시공간적 (Spatiotemporal) 어텐션 (Attention) 연산에 의해 병목이 발생합니다.
계산 복잡도: 어텐션 메커니즘은 시퀀스 길이에 대해 이차 (Quadratic) 복잡도를 가지며, 고해상도 비디오와 긴 프레임 수를 생성할 때 메모리 및 연산 비용이 기하급수적으로 증가합니다.
기존 방법의 한계:
- FlashAttention: 메모리 효율성을 높였지만, 총 곱셈 연산 수를 줄이지는 못합니다.
- 학습 기반 희소화 (Fine-tuning): 모델을 재학습시켜 희소성을 유도하는 방식은 막대한 계산 자원과 데이터가 필요합니다.
- 기존 학습 없는 (Training-free) 방법: 고정된 패턴 (예: Radial Attention) 을 적용하거나, 추론 시 오버헤드가 발생하는 온라인 결정 방식을 사용하며, 모델의 계층 (Layer), 헤드 (Head), 확산 시간 단계 (Timestep) 에 따른 어텐션 패턴의 다양성을 충분히 반영하지 못합니다.

2. 방법론 (Methodology: CalibAtt)

저자들은 **"CalibAtt"**이라는 새로운 학습 없는 (Training-free) 가속화 방법을 제안합니다. 이 방법은 모델의 어텐션 맵에서 관찰된 두 가지 핵심 특성을 기반으로 합니다.

핵심 관찰 (Key Observations)

희소성 (Sparsity): 다양한 입력 (프롬프트, 노이즈) 에서 어텐션 점수가 0 에 가까운 토큰 간 연결이 상당 부분 존재하며, 이는 블록 (Block) 단위에서도 유효합니다.
입력 불변성 (Data-Independence): 특정 모델의 계층, 헤드, 시간 단계에서 희소성 패턴은 입력 프롬프트에 관계없이 일관되게 반복됩니다.
공간적 반복 (Spatial Repetition): 프레임 내의 특정 공간 행 (Spatial Row) 들 간에 어텐션 패턴이 매우 유사하여, 대표 행 하나만 계산하고 나머지를 복사 (Broadcast) 해도 된다는 특성이 발견되었습니다.

알고리즘 프로세스

CalibAtt 은 **오프라인 캘리브레이션 (Offline Calibration)**과 온라인 추론 (Online Inference) 두 단계로 나뉩니다.

오프라인 캘리브레이션 (Calibration Stage):
- 소수의 캘리브레이션 프롬프트 (예: 64 개) 를 사용하여 모델의 어텐션 맵을 분석합니다.
- 블록 단위 에너지 기반 선택: 각 쿼리 블록에 대해 키 블록들의 어텐션 에너지 합을 계산하고, 임계값 ( $\epsilon$ ) 을 만족하는 최소한의 블록만 '계산 (Keep)'하고 나머지는 '생략 (Skip)'하는 이진 마스크를 생성합니다.
- 마스크 집계: 여러 프롬프트에서 생성된 마스크를 평균화하고 합의 임계값 ( $\rho$ ) 을 적용하여, 입력에 의존하지 않는 고정된 희소 마스크를 생성합니다.
- 공간적 반복 감지: 프레임 내 공간 행 간의 어텐션 유사도를 계산하여, 특정 행만 계산하고 나머지를 복제할 수 있는 '반복적 헤드 (Repetitive Heads)'를 식별합니다.
온라인 추론 (Inference Stage):
- 블록 희소 어텐션: 생성된 마스크를 기반으로, 계산이 필요한 블록만 FlashAttention3 커널에 전달하고 불필요한 블록은 하드웨어 효율적으로 건너뜁니다.
- 공간적 반복 최적화: 반복적 헤드로 식별된 경우, 프레임당 대표 행 (Anchor Row) 에 대해서만 어텐션을 계산하고 결과를 전체 행에 브로드캐스트하여 연산량을 획기적으로 줄입니다.
- 구현: FlashAttention3 기반의 커스텀 CUDA 커널을 사용하여, 미리 계산된 스킵 리스트 (Skip List) 를 GPU 메모리에 로드하고 효율적으로 실행합니다.

3. 주요 기여 (Key Contributions)

CalibAtt 프레임워크: 비디오 확산 모델의 어텐션 연산을 가속화하기 위한 최초의 학습 없는 (Training-free) 자동 캘리브레이션 방법론을 제안했습니다.
데이터 불변 패턴 활용: 입력 데이터에 의존하지 않고 모델의 계층, 헤드, 시간 단계별로 안정적인 희소성 패턴을 식별하여, 고정된 마스크를 통해 추론 시 오버헤드 없이 가속화를 달성했습니다.
이중 가속 전략: **블록 단위 희소화 (Block-level Sparsity)**와 **공간적 반복성 (Spatial Repetition)**을 결합하여 서로 다른 특성을 가진 어텐션 맵에 대해 상호 보완적인 최적화를 수행했습니다.
하드웨어 친화적 구현: FlashAttention3 와 호환되는 커스텀 커널을 개발하여, 기존 하드웨어 최적화 기술과 시너지를 내도록 설계했습니다.

4. 실험 결과 (Results)

저자들은 Wan 2.1 14B, Mochi 1, LightX2V (Distilled) 등 다양한 최신 비디오 생성 모델과 해상도 (480p, 720p) 에서 실험을 수행했습니다.

가속도 (Speedup):
- Wan 2.1 14B (720p): 기존 밀집 어텐션 (Dense Attention) 대비 1.58 배의 엔드 - 투 - 엔드 속도 향상을 달성했습니다 (지연 시간: 20 분 44 초 $\rightarrow$ 13 분 05 초).
- Mochi 1: 1.16 배, LightX2V (4 단계): 1.57 배의 속도 향상을 보였습니다.
품질 유지:
- VBench 점수: 밀집 어텐션 기반 모델과 비교했을 때, 시맨틱 품질 (Semantic Quality) 과 전체 점수 (Total Score) 에서 거의 차이가 없거나 오히려 향상된 결과를 보였습니다.
- 시각적 품질: 생성된 비디오의 화질, 시간적 일관성, 프롬프트 정합성이 유지됨을 시각적으로 확인했습니다.
희소성 (Sparsity):
- 평균 어텐션 희소성 (생략된 쿼리 - 키 쌍 비율) 이 60~70% 수준으로 크게 증가했습니다.
비교 우위: 기존 학습 없는 방법 (Radial Attention, SparseVideoGen2 등) 보다 더 높은 가속도와 희소성을 달성하면서도 품질 저하가 없었습니다.

5. 의의 및 결론 (Significance)

실용성: 별도의 모델 재학습 없이 기존 오픈소스 비디오 생성 모델을 즉시 가속화할 수 있어, 실제 서비스 적용 가능성이 매우 높습니다.
확장성: 다양한 아키텍처, 해상도, 확산 단계 설정에 대해 민감도 없이 일관된 성능을 보이며, 하이퍼파라미터 튜닝이 거의 필요하지 않습니다.
미래 방향: 캘리브레이션 비용은 한 번만 발생하므로 (Amortized cost), 추론 시 오버헤드가 있는 방법들보다 장기적으로 더 효율적입니다. 또한, 이 프레임워크는 이미지 확산 모델이나 언어 모델 등 다른 트랜스포머 기반 작업으로도 확장 가능합니다.

이 논문은 비디오 생성 모델의 추론 속도를 획기적으로 개선하면서도 고품질을 유지할 수 있는 새로운 패러다임을 제시했다는 점에서 큰 의의가 있습니다.