Each language version is independently generated for its own context, not a direct translation.

🎬 이즈이 애니메이션 (EasyAnimate): AI 가 영화를 만드는 새로운 비법

이 논문은 알리바바 클라우드 연구팀이 개발한 **'이즈이 애니메이션 (EasyAnimate)'**이라는 새로운 AI 비디오 생성 기술을 소개합니다. 기존에 AI 가 영상을 만들 때 느리거나, 영상이 어색하거나, 사용자가 원하는 대로 나오지 않는 문제들을 해결한 '고성능 프레임워크'입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 문제: "왜 AI 영상은 느리고 질이 떨어질까?"

기존의 AI 영상 생성기는 마치 거대한 도서관에서 모든 책을 한 번에 다 읽으려 하는 학생과 같습니다.

문제 1 (속도): 영상이 길어질수록 (프레임이 많아질수록) 처리해야 할 정보가 기하급수적으로 늘어나서 컴퓨터가 "아, 너무 많아! 멈춰!"라고 외치며 느려집니다.
문제 2 (품질): 사용자가 "멋진 로봇 DJ"라고 말해도, AI 는 "로봇이 뭐지? DJ 는 뭐지?"라고 혼란스러워하며 엉뚱한 영상을 만들거나, 그림이 너무 어색할 때가 많습니다.

2. 이즈이 애니메이션의 3 가지 해결책 (비유)

이 팀은 이 문제를 해결하기 위해 세 가지 혁신적인 방법을 썼습니다.

🪟 ① '하이브리드 윈도우 어텐션': 창문을 clever 하게 여닫기

기존 방식: 영상을 만들 때, AI 는 창문을 완전히 열어 모든 장면 (과거, 현재, 미래의 모든 프레임) 을 한눈에 보려고 했습니다. 하지만 창문이 너무 커지면 바람 (데이터) 이 너무 세게 불어와서 집 (컴퓨터) 이 흔들립니다.
새로운 방식 (하이브리드 윈도우): 이제 AI 는 창문을 상황에 따라 clever 하게 조절합니다.
- 중요한 장면에서는 창문을 크게 열어 전체를 봅니다.
- 사소한 부분에서는 창문을 작게만 열어 가까운 것만 봅니다.
- 비유: 마치 영화 감독이 촬영할 때 중요한 클라이맥스 장면은 전체 무대를 보지만, 대사 장면은 배우의 얼굴만 집중해서 보는 것과 같습니다. 이렇게 하면 컴퓨터는 덜 피곤해지고 (속도 향상), 중요한 디테일은 놓치지 않습니다.

🎓 ② '리워드 백프로파게이션': AI 에게 "선생님"을 붙이다

기존 방식: AI 가 영상을 만들고 나면, "이게 좋은가?"를 스스로 판단하기 어려워했습니다.
새로운 방식: AI 가 영상을 만들 때마다 **전문적인 심사위원 (리워드 모델)**이 영상을 보고 점수를 매겨줍니다.
- "이건 빛이 너무 어두워. 다시 해!"
- "로봇의 손가락이 6 개야. 5 개로 고쳐!"
- 비유: 마치 요리사가 요리를 만들고 미쉐린 가이드 심사위원이 맛을 보고 "소금 좀 더 넣으세요"라고 피드백을 주면, 요리사가 그 피드백을 바로 반영해 다음 요리를 더 맛있게 만드는 과정입니다. 이 과정을 통해 AI 는 인간의 취향에 훨씬 더 잘 맞는 영상을 만들게 됩니다.

📚 ③ '토큰 길이 학습 전략'과 'MLLM': 똑똑한 비서와 효율적인 작업실

비유: 영상 데이터는 크기가 제각각입니다. 어떤 건 3 초짜리 작은 사진이고, 어떤 건 10 초짜리 큰 영화입니다.
- 기존 방식: 큰 영화와 작은 사진을 같은 작업대에 올려놓고 처리하려다 보니, 큰 영화는 작업이 오래 걸리고 작은 사진은 기다리는 시간이 생겨 컴퓨터가 놀게 됩니다.
- 새로운 방식: 토큰 길이 학습 전략을 통해, 크기가 비슷한 영상들끼리 짝을 지어 동시에 처리합니다. 마치 택배 기사들이 배송할 때, 무게가 비슷한 상자들을 한 트럭에 싣고 가는 것처럼 효율을 극대화합니다.
- 텍스트 이해: 또한, AI 가 문장을 읽을 때 Qwen2-VL이라는 초지능 비서 (다중 모달 대형 언어 모델) 를 채용했습니다. 이 비서는 "로봇 DJ 가 턴테이블을 돌리며 박자를 맞추는 모습"이라는 복잡한 문장도 완벽하게 이해하고, 심지어 여러 언어도 알아듣습니다.

3. 결과: 어떤 변화가 일어났나요?

이 세 가지 기술을 합치자 놀라운 변화가 일어났습니다.

속도: 같은 A100 그래픽 카드에서도 영상을 만드는 시간이 약 20~25% 빨라졌습니다. (예: 1024x1024 해상도 기준 28 초에서 21 초로 단축)
품질: 인간이 평가했을 때, 이즈이 애니메이션이 만든 영상이 가장 높은 점수를 받았습니다. 특히 "로봇 DJ"나 "우주 배경의 로봇"처럼 복잡한 지시사항도 정확하게 따라 했습니다.
다양성: 영어뿐만 아니라 한국어, 중국어 등 다양한 언어로 지시해도 잘 알아듣습니다.

🎉 결론

이즈이 애니메이션은 AI 가 영상을 만들 때 "더 빠르고, 더 똑똑하고, 더 인간적인" 방식을 찾아낸 기술입니다. 마치 초고속으로 움직이는 마법사가 복잡한 주문 (텍스트) 을 듣고, 즉시 멋진 영화 (영상) 를 만들어내는 것과 같습니다.

이 기술은 앞으로 우리가 상상하는 모든 영상을 더 쉽고 빠르게 만들어줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

EasyAnimate: 하이브리드 윈도우 어텐션과 보상 역전파를 통한 고성능 비디오 생성 프레임워크

1. 문제 정의 (Problem)

기존의 비디오 생성 모델 (특히 Diffusion Transformer 기반) 은 다음과 같은 주요 한계점을 가지고 있습니다:

낮은 효율성과 느린 속도: 비디오는 이미지보다 긴 시퀀스 (시간적 차원) 를 가지므로, Transformer 의 어텐션 메커니즘 복잡도가 시퀀스 길이에 따라 2 차 함수적으로 증가합니다. 이로 인해 고해상도/장면 비디오 생성 시 학습 및 추론 속도가 매우 느립니다.
GPU 활용도 불균형: 다양한 해상도와 프레임 수를 가진 비디오를 학습할 때, 시퀀스 길이가 다르면 GPU 간 부하 균형이 깨져 유휴 시간이 발생합니다.
생성 품질 및 텍스트 정렬 부족: 기존 모델은 인간의 미적 선호도 (Aesthetic) 와 텍스트 프롬프트에 대한 정확한 이해 (Complex Object Relationships, Detailed Descriptions) 가 부족하여, 시각적으로 매력이 없거나 프롬프트와 일치하지 않는 비디오를 생성하는 경우가 많습니다.
텍스트 인코더의 한계: CLIP 이나 T5 와 같은 기존 텍스트 인코더는 긴 텍스트 입력을 지원하지 못하거나 복잡한 객체 관계와 세부 사항을 이해하는 능력이 제한적입니다.

2. 방법론 (Methodology)

EasyAnimate 는 데이터 전처리, VAE 학습, DiT(Diffusion Transformer) 학습, 그리고 후속 학습 (Post-training) 을 포함한 종합적인 프레임워크를 제시합니다.

가. 하이브리드 윈도우 어텐션 (Hybrid Window Attention)

다방향 슬라이딩 윈도우 어텐션 (Multidirectional Sliding Window Attention): 기존 1 차원 슬라이딩 윈도우의 한계를 극복하기 위해, 비디오 토큰의 3 차원적 (시간, 높이, 너비) 국소성을 고려하여 헤드를 여러 그룹으로 나누고 각 그룹이 서로 다른 방향 (예: 시간, 공간, 혼합) 으로 슬라이딩 윈도우를 적용합니다.
하이브리드 구조: 3D 전역 어텐션 (Full Attention) 과 다방향 슬라이딩 윈도우 어텐션을 교차 배치하여, 전역적인 맥락을 유지하면서도 계산 복잡도를 줄이고 수용 영역 (Receptive Field) 을 확장합니다. 이는 FlashAttention 과 같은 라이브러리를 통해 효율적으로 구현됩니다.

나. 토큰 길이 기반 학습 전략 (Training with Token Length)

다양한 해상도와 프레임 수를 가진 비디오를 학습할 때, GPU 간 부하 불균형을 해결하기 위해 토큰 수 (Token Count) 를 기준으로 샘플을 그룹화합니다.
서로 다른 해상도 (예: 512x512, 768x768) 와 프레임 수 (예: 49 프레임, 21 프레임) 를 가진 비디오라도 총 토큰 수가 비슷하면 동일한 배치에서 학습하여 GPU 유휴 시간을 최소화하고 학습 효율을 극대화합니다.

다. 멀티모달 LLM 기반 텍스트 인코더

기존 CLIP/T5 대신 Qwen2-VL (Multimodal Large Language Model) 을 텍스트 인코더로 채택했습니다.
Qwen2-VL 은 긴 텍스트 입력을 지원하며, 시각 - 언어 태스크에서 뛰어난 성능을 보여 복잡한 프롬프트와 객체 관계를 더 잘 이해하도록 돕습니다. 텍스트 특징과 비디오 특징 간의 L2 노름 (L2 norm) 불일치를 해결하기 위해 RMSNorm 을 적용했습니다.

라. 보상 역전파 (Reward Backpropagation) 를 통한 후속 학습

생성된 비디오의 품질을 인간 선호도에 맞추기 위해 보상 역전파 기법을 적용합니다.
차이점: 기존 DDPM 기반 모델과 달리, EasyAnimate 는 Rectified Flow 기반 모델을 사용하므로 역전파 단계 수 ( $K$ $K$ ) 와 프레임 수 ( $F$ $F$ ) 를 신중하게 조정했습니다.
- $K=10$ : 마지막 단계만 최적화하는 것보다 역전파 단계를 늘려 학습 안정성과 수렴 속도를 개선.
- $F=1$ : 여러 프레임을 동시에 보상 계산하면 비디오의 역동성이 떨어지고 학습이 불안정해지므로, 단일 프레임 (첫 번째 프레임) 을 기준으로 최적화하여 동적 일관성을 유지.
HPSv2.1(인간 선호도) 과 MPS(다차원 선호도) 등 다양한 보상 모델을 결합하여 최적의 성능을 도출했습니다.

마. 3D Causal VAE

공간 및 시간 차원 모두에서 비디오를 압축하는 3D Causal VAE 를 사용하여 메모리 사용량을 줄이고, 인코딩/디코딩 시 이전 잠재 상태를 캐싱하여 긴 비디오 처리를 가능하게 합니다.

3. 주요 기여 (Key Contributions)

하이브리드 윈도우 어텐션 제안: 다방향 슬라이딩 윈도우와 전역 어텐션을 결합하여 비디오 생성의 계산 효율성을 획기적으로 높이고 3D 수용 영역을 확장했습니다.
보상 역전파 최적화: Rectified Flow 기반 Diffusion Transformer 에 보상 역전파를 성공적으로 적용하여, 학습 안정성을 보장하면서도 인간 선호도와 텍스트 정렬을 크게 개선했습니다.
고효율 학습 프레임워크 (EasyAnimate): 토큰 길이 기반 학습 전략과 MLLM 기반 텍스트 인코더를 통합하여, 다양한 해상도와 길이의 비디오 학습 효율과 모델 성능을 동시에 향상시켰습니다.

4. 실험 결과 (Results)

VBench 리더보드: EasyAnimate 는 Total Score, Quality Score, Semantic Score 등 주요 지표에서 SOTA(State-of-the-Art) 모델 (Sora, HunyuanVideo, CogVideoX 등) 과 경쟁하거나 우위를 점했습니다. 특히 Aesthetic(미적) 점수에서 인간 선호도 모델의 도움으로 탁월한 성능을 보였습니다.
인간 평가: HunyuanVideo, CogVideoX 와의 비교 평가에서 품질 (Quality), 텍스트 - 비디오 일관성 (Semantic), 물리 법칙 준수 (Physics) 모든 항목에서 인간 평가자들의 선호도가 가장 높았습니다.
성능 향상:
- 하이브리드 어텐션 적용 시 1024x1024 해상도에서 학습 지연 (Latency) 이 약 22% 단축되었습니다.
- 토큰 길이 기반 학습 전략은 배치당 학습 토큰 수를 기존 방법 대비 120.91% 증가시켰습니다.
- Qwen2-VL 인코더 적용은 VBench 점수를 전반적으로 향상시켰습니다.

5. 의의 및 결론 (Significance)

EasyAnimate 는 고해상도, 장시간 비디오 생성의 핵심 병목 현상이었던 계산 비용과 품질/정렬 문제를 동시에 해결하는 통합 프레임워크를 제시합니다.

효율성: 슬라이딩 윈도우 어텐션과 토큰 기반 학습 전략을 통해 대규모 비디오 학습의 실용성을 높였습니다.
품질: 보상 역전파와 MLLM 인코더를 통해 생성된 비디오의 미적 품질과 프롬프트 준수도를 인간 수준에 가깝게 끌어올렸습니다.
확장성: 오픈소스로 공개된 코드와 사전 학습 모델은 연구 및 산업계에서 고품질 비디오 생성 기술의 접근성을 높이는 데 기여할 것으로 기대됩니다.

이 논문은 Diffusion Transformer 기반 비디오 생성 모델이 단순한 성능 향상을 넘어, 실제 적용 가능한 효율성과 인간 친화적인 품질을 동시에 달성할 수 있음을 입증했습니다.

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation