UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

이 논문은 비디오 확산 트랜스포머의 길이 외삽 한계를 해결하기 위해 어텐션 분산 현상을 규명하고, 이를 억제하는 훈련 없는 플러그인 방법인 UltraViCo 를 제안하여 기존 방법 대비 4 배의 외삽 성능과 품질 향상을 달성함을 보여줍니다.

Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 "UltraViCo": 비디오 AI 가 긴 영상을 만들 때 겪는 '기억 상실'을 해결하다

이 논문은 최신 AI 비디오 생성 기술 (텍스트를 입력하면 영상을 만들어주는 기술) 이 가진 큰 문제점 하나를 발견하고, 이를 해결하는 획기적인 방법을 제시합니다.

🎥 배경: AI 가 "짧은 영상"만 잘 만드는 이유

지금까지의 AI 비디오 모델들은 보통 5 초짜리 짧은 영상으로만 훈련되었습니다. 그런데 우리가 "1 분짜리 영상을 만들어줘"라고 요청하면, AI 는 당황합니다. 마치 어린아이가 짧은 동화책은 잘 읽지만, 두꺼운 소설을 읽으려다 내용을 잊어버리거나 같은 장면을 반복해서 읽는 것과 비슷합니다.

이 논문은 AI 가 긴 영상을 만들 때 겪는 두 가지 치명적인 실수를 발견했습니다:

  1. 지루한 반복 (Repetition): 같은 장면이 끝없이 반복됩니다. (예: 개가 뛰는 장면이 10 초마다 똑같이 반복됨)
  2. 화질 저하 (Quality Degradation): 영상이 흐려지고, 움직임이 멈추어 마치 정지된 사진처럼 보입니다.

🔍 원인 분석: "주의 (Attention)"가 흩어졌기 때문

연구진들은 AI 가 왜 이런 실수를 하는지 파헤쳤습니다. 핵심은 AI 의 '주의 (Attention)' 메커니즘에 있었습니다.

  • 비유: AI 가 영상을 만들 때는 마치 영화 감독이 배우들의 연기를 지켜보며 다음 장면을 구상하는 것과 같습니다. 훈련된 짧은 영상 (5 초) 안에서는 감독이 모든 배우의 연기를 선명하게 기억하고 집중합니다.
  • 문제점: 하지만 갑자기 20 초, 30 초로 길어지면, 감독은 너무 많은 배우 (새로운 프레임) 를 한 번에 보려고 하다가 집중력이 흩어집니다.
    • 화질 저하: 집중력이 흐트러지면 디테일 (얼굴 표정, 배경) 이 흐릿해집니다.
    • 반복: 더 흥미로운 점은, 어떤 모델은 이 흩어진 집중력이 **특정한 리듬 (주기)**을 타고 다시 모이면서, 같은 장면을 계속 반복하게 된다는 것입니다. 마치 리듬감 있는 음악이 너무 반복되면 귀에 익어서 같은 멜로디만 계속 들리는 현상과 같습니다.

저자들은 이를 **'주의 분산 (Attention Dispersion)'**이라고 불렀습니다. 즉, AI 가 훈련된 범위 밖의 새로운 정보에 너무 많은 관심을 쏟다가, 정작 중요한 훈련된 정보를 잊어버리고 망가뜨리는 것입니다.

💡 해결책: UltraViCo (울트라비코)

이 문제를 해결하기 위해 연구진은 UltraViCo라는 새로운 방법을 개발했습니다. 이 방법은 AI 를 다시 훈련시킬 필요 없이, 기존 모델에 **플러그인 (Plug-and-play)**처럼 바로 적용할 수 있습니다.

  • 핵심 아이디어: "훈련된 범위 (5 초) 밖의 정보는 조금만 봐주고, 훈련된 범위 안의 정보에 집중하라!"
  • 작동 원리:
    • AI 가 영상을 만들 때, 훈련된 시간 범위 (예: 5 초) 안의 프레임에는 100% 집중하게 합니다.
    • 범위를 벗어난 새로운 프레임 (5 초 이후) 에는 '감쇠 (Decay)' 효과를 주어 관심을 줄입니다.
    • 마치 노안 안경을 쓴 할아버지가 가까운 글씨는 또렷하게 보지만, 먼 글씨는 흐릿하게 보며 집중하는 것과 같습니다. AI 가 멀리 있는 정보에 너무 많은 에너지를 쏟지 않도록 도와주는 것입니다.

이렇게 하면 AI 는 흐릿해지거나 반복되는 실수를 막고, 훈련된 범위 안의 선명한 정보를 바탕으로 긴 영상을 자연스럽게 이어갈 수 있게 됩니다.

🚀 성과: 2 배에서 4 배로!

기존 방법들은 영상을 2 배 (10 초) 로 늘려도 화질이 급격히 떨어지거나 멈추는 문제가 있었습니다. 하지만 UltraViCo 를 적용한 결과:

  • 4 배 (20 초) 길이의 영상도 선명하고 자연스러운 움직임으로 만들어냅니다.
  • **움직임의 자연스러움 (Dynamic Degree)**은 이전 최고 성능보다 **233%**나 향상되었습니다.
  • **화질 (Imaging Quality)**도 **40.5%**나 좋아졌습니다.

🌟 결론

이 연구는 AI 가 긴 영상을 만들 때 겪는 '기억 상실'과 '집중력 부족' 문제를 주의 (Attention) 를 조절하는 것으로 해결했습니다. UltraViCo 는 별도의 복잡한 학습 없이도, 기존 AI 모델이 더 길고 더 멋진 영상을 만들 수 있게 해주는 **'초점 조절 안경'**과 같은 역할을 합니다.

이 기술은 앞으로 AI 가 영화나 드라마 같은 긴 영상을 자동으로 제작하는 데 큰 도움이 될 것으로 기대됩니다.