CHAI: CacHe Attention Inference for text2video

本文提出了 CHAI(CacHe Attention Inference),一种通过引入跨推理缓存注意力机制来高效复用语义相关提示中的共享场景,从而在仅需 8 步去噪的情况下将 OpenSora 1.2 的推理速度提升 1.65 至 3.35 倍且保持视频质量的文本到视频生成加速方法。

Joel Mathew Cherian, Ashutosh Muralidhara Bharadwaj, Vima Gupta, Anand Padmanabha Iyer

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CHAI(CacHe Attention Inference for text2video,意为“缓存注意力推理”)的新系统。它的核心目标是:让 AI 生成视频的速度快得像变魔术,但画质依然清晰,而且不需要重新训练 AI 模型。

为了让你轻松理解,我们可以把生成视频的过程想象成**“画一幅复杂的动态连环画”**。

1. 现在的痛点:为什么生成视频这么慢?

想象一下,你让 AI 画一个“海滩上波浪拍打沙滩”的视频。

  • 传统方法(OpenSora 等):AI 就像是一个极其谨慎的画家。它从一团模糊的噪点(像电视雪花)开始,需要30 到 50 次反复的“修改”和“细化”,才能把噪点变成清晰的画面。每一次修改(去噪步骤)都要计算巨大的数据量,所以非常慢,就像画家要画 50 遍才能完成一幅画。
  • 现有的加速方法
    • 方法 A(重新训练):让画家去进修,学一种“速成画法”。但这需要花几个月时间重新训练,成本太高,不现实。
    • 方法 B(跳过步骤):告诉画家:“中间那几步你偷懒跳过吧,直接画最后的效果。”但这有个大问题:如果跳过太多,画出来的东西就会变形、模糊,或者海浪和沙滩混在一起分不清。

2. CHAI 的绝招:聪明的“借图”策略

CHAI 不想重新训练画家,也不想粗暴地跳过步骤。它想出了一个更聪明的办法:“借图”

核心洞察:虽然故事不同,但“主角”可能一样

以前的加速方法(比如 NIRVANA)是这样想的:“如果你让我画‘海滩派对’,下次让我画‘海滩日落’,因为这两个提示词(Prompt)很像,所以我直接把上次画好的底稿拿来用。”

  • 问题:视频提示词通常很长且具体。比如“海滩派对”和“春天海滩的波浪”,虽然都有“海滩”,但整体描述差别很大。如果只比整体,AI 发现它们“不像”,就不敢借图,导致加速失败。

CHAI 的突破:它不看整句话像不像,而是看**“核心元素”**像不像。

  • 它提取出提示词里的实体(Entity):比如“海滩”、“波浪”、“沙子”。
  • 只要新请求里也有“海滩”,CHAI 就会想:“嘿,我之前画过‘海滩派对’,那里的‘海滩’和‘波浪’已经画得很完美了,我可以直接借用这部分!”

关键技术:缓存注意力(Cache Attention)—— 像“智能滤镜”一样借用

这是 CHAI 最厉害的地方。它不是直接把旧图贴上去(那样会混入“派对”的元素,比如出现气球或人群,这就错了)。

它发明了一种叫**“缓存注意力”**的机制:

  • 比喻:想象你有一张画好的“海滩”底图(缓存)。现在你要画“春天的海滩”。
  • 传统借图:直接把整张底图盖上去,结果春天海滩里混进了派对的彩带。
  • CHAI 的借图:它戴上了一副**“智能眼镜”**。这副眼镜只透过底图里的“海浪”和“沙滩”部分,而自动过滤掉“派对”部分。然后,它只把这些干净的“海浪”和“沙滩”信息,注入到你正在画的“春天海滩”里。
  • 结果:你既利用了之前画好的高质量“海浪”细节(省去了重新计算的时间),又完全保留了“春天”这个新指令的独特性。

3. 效果如何?快如闪电,画质如初

通过这种“只借核心元素”的策略,CHAI 实现了惊人的效果:

  • 步骤大减:以前需要画 30 步,现在只需要画 8 步
    • 比喻:以前画家要画 30 遍才能完工,现在因为借用了完美的底稿,他只需要画最后 8 笔就能完成。
  • 速度提升:比原来的系统快了 1.65 倍到 3.35 倍
  • 画质无损:虽然步骤少了,但因为借用了高质量底稿,画出来的视频依然清晰、连贯,没有那种“跳过步骤”导致的模糊或变形。

4. 总结:CHAI 是什么?

如果把生成视频比作**“做一道复杂的菜”**:

  • 以前的做法:每次都要从切菜、洗菜、炒菜一步步从头做起,哪怕只是做一道类似的菜,也要花同样长的时间。
  • CHAI 的做法:它有一个**“智能冰箱”**。当你想做“红烧牛肉”时,它发现冰箱里刚做过“红烧排骨”,里面的“红烧酱汁”和“炖肉火候”是通用的。
    • 它不会直接把排骨端上来(那是错的)。
    • 它会提取出完美的“酱汁”和“火候”(缓存注意力),然后只花很少的时间去处理牛肉,最后端出一盘完美的红烧牛肉。

一句话总结
CHAI 是一个不需要重新训练 AI,就能通过**“聪明地借用以前画过的核心元素”,让 AI 生成视频速度快 3 倍**,同时画质依然完美的新技术。它让 AI 视频生成从“慢工出细活”变成了“秒级出大片”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →