Accelerating Text-to-Video Generation with Calibrated Sparse Attention

本文提出了一种名为 CalibAtt 的免训练方法,通过离线校准识别并跳过视频生成扩散模型中冗余的时空注意力计算,从而在保持生成质量的同时实现了高达 1.58 倍的端到端加速。

Shai Yehezkel, Shahar Yadin, Noam Elata, Yaron Ostrovsky-Berman, Bahjat Kawar

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 CalibAtt 的新方法,它的目标是让 AI 生成视频的速度变得更快,就像给一辆正在爬坡的跑车换上了更高效的引擎,而且不需要重新训练这辆跑车

为了让你更容易理解,我们可以把 AI 生成视频的过程想象成导演在指挥一场宏大的电影拍摄

1. 现在的痛点:导演太累了,效率太低

目前的 AI 视频生成模型(比如 Wan 2.1 或 Mochi 1)非常强大,能拍出电影级的画面。但是,它们有一个巨大的缺点:

  • 比喻:想象一下,导演(AI 模型)在指挥一场有数万个演员(数据中的“令牌”或 Token)的大戏。
  • 问题:在传统的“密集注意力”模式下,导演必须亲自盯着每一个演员,并询问每一个演员和其他所有演员的关系
    • 比如,导演要问:“第 1 个演员和第 1000 个演员有关系吗?”、“第 50 个演员和第 9999 个演员有关系吗?”
    • 哪怕这两个演员相隔十万八千里,根本不可能有互动,导演也要硬着头皮问一遍。
    • 这种“全员大点名”的方式,随着演员数量(视频分辨率和时长)的增加,工作量会呈爆炸式增长,导致生成一个视频需要几十分钟甚至更久。

2. 核心发现:其实大部分“点名”都是多余的

作者通过观察发现,AI 在生成视频时,其实大部分演员之间根本不需要交流

  • 比喻
    • 在“熊猫在巴黎咖啡馆喝咖啡”的视频里,熊猫的左耳朵和背景里的埃菲尔铁塔,其实几乎不需要互相“看”对方。
    • 而且,这种“不需要交流”的模式是有规律的。不管导演今天拍的是“熊猫”还是“宇航员”,在视频的某些特定时刻、某些特定的镜头角度下,总是同一批演员不需要互相交流
    • 这就好比,不管演什么戏,舞台左边的灯光师和右边的音响师通常不需要直接对话,这个规则是固定的。

3. 解决方案:CalibAtt(校准后的“智能点名”)

基于这个发现,作者发明了 CalibAtt。它不需要重新训练 AI,而是给导演配了一个聪明的“场务助理”

这个工作分两步走:

第一步:离线“彩排”(校准阶段)

在正式拍电影之前,助理先拿几个不同的剧本(比如“熊猫”、“宇航员”、“宇航员”等)快速试拍一遍。

  • 动作:助理会记录下来:“哦,在第 5 秒,第 20 层镜头,第 3 号机位时,A 区的所有演员都不需要和 B 区的演员说话。”
  • 结果:助理把这些“不需要说话”的规律整理成一张黑名单(Mask)。这张名单是通用的,因为无论剧本怎么变,这些“无效交流”的模式基本不变。

第二步:正式拍摄(推理阶段)

正式生成视频时,导演不再需要问所有人。

  • 动作:导演直接看助理给的黑名单
    • 如果名单上写着"A 区和 B 区不用交流”,导演就直接跳过,完全不去计算它们的关系。
    • 只计算那些名单上没被划掉的、真正重要的互动。
  • 比喻:就像以前是“全员大点名”,现在变成了“只点名关键人物”。导演省下了 60% 甚至 70% 的精力,但电影的质量一点没变,因为那些被跳过的本来就是废话。

4. 两个绝妙的技巧

除了“跳过废话”,CalibAtt 还有两个小妙招:

  1. 复制粘贴法(空间重复检测)

    • 现象:有时候,视频里同一帧画面的不同行(比如天空的几行像素),它们看到的景象几乎一模一样。
    • 做法:导演不需要计算每一行,只需要算一行,然后告诉其他行:“你们照着这一行抄作业就行!”
    • 效果:这就像复印文件,算一次,复印给所有人,速度飞快。
  2. 硬件友好

    • 这个方法不是让电脑“想”着跳过,而是直接修改了底层的计算指令(CUDA 内核),让显卡(GPU)在硬件层面就直接忽略那些不需要的计算。这就像给工厂的流水线装了自动剔除装置,坏掉的零件(无效计算)直接掉下去,不占用传送带。

5. 成果如何?

  • 速度提升:在测试中,生成视频的速度提升了 1.58 倍(比如原来要 20 分钟,现在只要 13 分钟)。
  • 质量不变:生成的视频画面清晰度和对文字提示的遵循度,和原来慢吞吞的方法一模一样
  • 通用性强:这个方法适用于不同的 AI 模型(Wan 2.1, Mochi 1 等)和不同的分辨率。

总结

CalibAtt 就像是给 AI 视频生成器装了一个智能过滤器。它通过一次简单的“预习”,记住了哪些计算是多余的,然后在正式工作时直接跳过这些无效劳动

这就好比你在做一道复杂的菜,以前你尝遍了所有食材的味道才决定放盐;现在你发现,有些食材(比如糖和盐)在特定情况下根本不需要互相作用,于是你直接跳过这一步,菜的味道没变,但你做饭的时间却少了一半

这项技术让 AI 生成视频变得更便宜、更快,让普通人也能更快地享受到高质量的 AI 创作。