UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

本文提出了名为 UltraViCo 的免训练即插即用方法,通过抑制超出训练窗口 token 的注意力分散,有效解决了视频扩散 Transformer 在长度外推中面临的周期性重复与质量退化问题,将外推极限从 2 倍提升至 4 倍并显著优于现有基线。

Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UltraViCo 的新方法,它解决了一个让 AI 视频生成模型头疼的大问题:如何让 AI 生成比它“学”过的视频更长的视频,而且还不糊、不重复?

我们可以把这件事想象成让一个只会讲 5 分钟短故事的人,去讲一个 20 分钟的长篇故事

1. 以前的问题:AI 的“失忆”与“复读机”模式

现在的 AI 视频模型(比如 HunyuanVideo, Wan 等)通常是在固定长度的视频上训练的(比如 5 秒)。如果你强行让它生成 20 秒(4 倍长)的视频,它通常会犯两个严重的错误:

  • 错误一:无限循环的“复读机”
    • 现象:视频里的动作像卡带一样,反复播放同一段几秒钟的片段。比如一个人刚迈出一步,下一秒又退回去,再下一秒又迈出,永远在原地踏步。
    • 原因:AI 的“大脑”(注意力机制)在计算时,因为位置编码的数学特性,产生了一种周期性的幻觉,让它觉得“现在的画面”和"3 秒前的画面”是一模一样的。
  • 错误二:模糊的“失焦”镜头
    • 现象:即使没有循环,视频也会变得非常模糊,动作僵硬像定格动画,细节全丢。
    • 原因:AI 的注意力被稀释了。当视频变长,AI 需要关注的内容变多了,但它原本学会的“关注重点”被强行摊薄到了整个长视频上,导致它什么都看不清楚,什么都记不住。

以前的解决方法(比如 RIFLEx)就像是在给 AI 戴眼罩,只告诉它“别重复”,但没解决“看不清”的问题,所以效果有限。

2. 核心发现:注意力“散漫”是万恶之源

作者通过观察 AI 的“注意力地图”(就像看 AI 在看哪里),发现这两个错误其实同根同源

  • 注意力分散(Attention Dispersion):当视频变长,AI 原本聚焦在“训练窗口”(它熟悉的那几秒)的注意力,被强行拉向了那些它没见过的“新时间”。
    • 这就好比一个专注力很强的学生,突然被要求同时看 100 本书。他原本能看清第 1 页的字,现在被迫把目光扫过 100 页,结果每页都看得模模糊糊(质量下降)。
    • 更糟糕的是,如果这些“新页面”的排版恰好有某种规律(数学上的谐波),学生就会误以为第 1 页和第 50 页是一样的,于是开始机械地重复第 1 页的内容(内容重复)。

3. 解决方案:UltraViCo —— 给 AI 戴上“聚光灯”

UltraViCo 不需要重新训练模型,它是一个即插即用的“聚光灯”插件。

  • 它的做法
    想象 AI 手里有一束光(注意力),原本这束光均匀地照在整个长视频上。UltraViCo 的做法是:

    1. 保留核心:把光最亮、最集中的部分,死死地锁定在 AI 熟悉的“训练窗口”(前几秒)上。
    2. 压制边缘:对于超出训练长度的那些“新时间”片段,给它们的光线调暗(乘以一个衰减系数)。
    3. 特殊处理:对于那些容易引发“复读机”效应的特定时间点,给它更暗的光,彻底打断循环的链条。
  • 比喻
    这就好比你在看一场很长的电影,但你的眼睛被训练成只能看清前 5 秒的镜头。UltraViCo 就像给你的眼睛装了一个智能变焦镜头

    • 它强迫你的眼睛主要盯着前 5 秒的清晰画面看(保证细节和动作流畅)。
    • 对于后面没见过的画面,它只是轻轻扫一眼,不让你把注意力浪费在那些模糊的猜测上。
    • 这样,AI 就能基于它最擅长的“短镜头”逻辑,去推演长视频,既不会糊,也不会卡。

4. 效果如何?

  • 突破极限:以前 AI 最多只能生成 2 倍长的视频,超过就废了。现在 UltraViCo 能让它稳定生成 4 倍长 的视频。
  • 质量飞跃
    • 在 4 倍长的情况下,视频的动态程度(动作是否自然)提升了 233%
    • 画质提升了 40.5%
    • 彻底消除了那种“鬼畜”的循环重复。
  • 通用性强:这个方法不仅适用于生成视频,还能直接用在“视频编辑”、“按姿势生成视频”等下游任务中,就像给所有视频模型都装了一个通用的“防抖防糊”插件。

总结

简单来说,UltraViCo 发现 AI 做长视频失败是因为“心太散”和“脑子乱”。它通过一种简单聪明的数学技巧,强行把 AI 的注意力拉回到它最熟悉的领域,只让它在熟悉的范围内“深耕”,从而奇迹般地生成了既长、又清晰、又流畅的视频。

这就好比让一个短跑冠军去跑马拉松,以前他跑几公里就累瘫了(质量下降)或者原地打转(重复)。UltraViCo 就是给他配了一个智能配速员,告诉他:“你只管保持短跑时的最佳节奏和专注度,后面的路我们帮你‘虚化’处理,你只管跑好眼前的每一步。”结果,他不仅跑完了全程,还跑得飞快且姿势优美。