EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

이 논문은 하이브리드 윈도우 어텐션, 보상 역전파, 토큰 길이 기반 학습 전략 등을 통해 학습 및 추론 효율성과 비디오 생성 품질을 동시에 극대화한 고품질 비디오 생성 프레임워크 'EasyAnimate'를 제안합니다.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou, Yunkuo Chen, Bo Liu, MengLi Cheng, Jun Huang, Xing Shi

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 이즈이 애니메이션 (EasyAnimate): AI 가 영화를 만드는 새로운 비법

이 논문은 알리바바 클라우드 연구팀이 개발한 **'이즈이 애니메이션 (EasyAnimate)'**이라는 새로운 AI 비디오 생성 기술을 소개합니다. 기존에 AI 가 영상을 만들 때 느리거나, 영상이 어색하거나, 사용자가 원하는 대로 나오지 않는 문제들을 해결한 '고성능 프레임워크'입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 문제: "왜 AI 영상은 느리고 질이 떨어질까?"

기존의 AI 영상 생성기는 마치 거대한 도서관에서 모든 책을 한 번에 다 읽으려 하는 학생과 같습니다.

  • 문제 1 (속도): 영상이 길어질수록 (프레임이 많아질수록) 처리해야 할 정보가 기하급수적으로 늘어나서 컴퓨터가 "아, 너무 많아! 멈춰!"라고 외치며 느려집니다.
  • 문제 2 (품질): 사용자가 "멋진 로봇 DJ"라고 말해도, AI 는 "로봇이 뭐지? DJ 는 뭐지?"라고 혼란스러워하며 엉뚱한 영상을 만들거나, 그림이 너무 어색할 때가 많습니다.

2. 이즈이 애니메이션의 3 가지 해결책 (비유)

이 팀은 이 문제를 해결하기 위해 세 가지 혁신적인 방법을 썼습니다.

🪟 ① '하이브리드 윈도우 어텐션': 창문을 clever 하게 여닫기

  • 기존 방식: 영상을 만들 때, AI 는 창문을 완전히 열어 모든 장면 (과거, 현재, 미래의 모든 프레임) 을 한눈에 보려고 했습니다. 하지만 창문이 너무 커지면 바람 (데이터) 이 너무 세게 불어와서 집 (컴퓨터) 이 흔들립니다.
  • 새로운 방식 (하이브리드 윈도우): 이제 AI 는 창문을 상황에 따라 clever 하게 조절합니다.
    • 중요한 장면에서는 창문을 크게 열어 전체를 봅니다.
    • 사소한 부분에서는 창문을 작게만 열어 가까운 것만 봅니다.
    • 비유: 마치 영화 감독이 촬영할 때 중요한 클라이맥스 장면은 전체 무대를 보지만, 대사 장면은 배우의 얼굴만 집중해서 보는 것과 같습니다. 이렇게 하면 컴퓨터는 덜 피곤해지고 (속도 향상), 중요한 디테일은 놓치지 않습니다.

🎓 ② '리워드 백프로파게이션': AI 에게 "선생님"을 붙이다

  • 기존 방식: AI 가 영상을 만들고 나면, "이게 좋은가?"를 스스로 판단하기 어려워했습니다.
  • 새로운 방식: AI 가 영상을 만들 때마다 **전문적인 심사위원 (리워드 모델)**이 영상을 보고 점수를 매겨줍니다.
    • "이건 빛이 너무 어두워. 다시 해!"
    • "로봇의 손가락이 6 개야. 5 개로 고쳐!"
    • 비유: 마치 요리사가 요리를 만들고 미쉐린 가이드 심사위원이 맛을 보고 "소금 좀 더 넣으세요"라고 피드백을 주면, 요리사가 그 피드백을 바로 반영해 다음 요리를 더 맛있게 만드는 과정입니다. 이 과정을 통해 AI 는 인간의 취향에 훨씬 더 잘 맞는 영상을 만들게 됩니다.

📚 ③ '토큰 길이 학습 전략'과 'MLLM': 똑똑한 비서와 효율적인 작업실

  • 비유: 영상 데이터는 크기가 제각각입니다. 어떤 건 3 초짜리 작은 사진이고, 어떤 건 10 초짜리 큰 영화입니다.
    • 기존 방식: 큰 영화와 작은 사진을 같은 작업대에 올려놓고 처리하려다 보니, 큰 영화는 작업이 오래 걸리고 작은 사진은 기다리는 시간이 생겨 컴퓨터가 놀게 됩니다.
    • 새로운 방식: 토큰 길이 학습 전략을 통해, 크기가 비슷한 영상들끼리 짝을 지어 동시에 처리합니다. 마치 택배 기사들이 배송할 때, 무게가 비슷한 상자들을 한 트럭에 싣고 가는 것처럼 효율을 극대화합니다.
    • 텍스트 이해: 또한, AI 가 문장을 읽을 때 Qwen2-VL이라는 초지능 비서 (다중 모달 대형 언어 모델) 를 채용했습니다. 이 비서는 "로봇 DJ 가 턴테이블을 돌리며 박자를 맞추는 모습"이라는 복잡한 문장도 완벽하게 이해하고, 심지어 여러 언어도 알아듣습니다.

3. 결과: 어떤 변화가 일어났나요?

이 세 가지 기술을 합치자 놀라운 변화가 일어났습니다.

  1. 속도: 같은 A100 그래픽 카드에서도 영상을 만드는 시간이 약 20~25% 빨라졌습니다. (예: 1024x1024 해상도 기준 28 초에서 21 초로 단축)
  2. 품질: 인간이 평가했을 때, 이즈이 애니메이션이 만든 영상이 가장 높은 점수를 받았습니다. 특히 "로봇 DJ"나 "우주 배경의 로봇"처럼 복잡한 지시사항도 정확하게 따라 했습니다.
  3. 다양성: 영어뿐만 아니라 한국어, 중국어 등 다양한 언어로 지시해도 잘 알아듣습니다.

🎉 결론

이즈이 애니메이션은 AI 가 영상을 만들 때 "더 빠르고, 더 똑똑하고, 더 인간적인" 방식을 찾아낸 기술입니다. 마치 초고속으로 움직이는 마법사가 복잡한 주문 (텍스트) 을 듣고, 즉시 멋진 영화 (영상) 를 만들어내는 것과 같습니다.

이 기술은 앞으로 우리가 상상하는 모든 영상을 더 쉽고 빠르게 만들어줄 것입니다.