StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

本文提出了 StreamDiffusionV2,一种无需训练的流式视频生成系统,它通过 SLO 感知的批处理调度、块调度、Sink-token 引导的滚动 KV 缓存及跨层并行化等创新技术,在异构 GPU 集群上实现了低延迟、高帧率且时序一致的高质量实时视频生成。

Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在看一场实时直播,但主播不是真人,而是一个由 AI 生成的虚拟角色。这个 AI 不仅能根据你的指令(比如“变成赛博朋克风格”)瞬间改变画面,还能随着你的聊天实时互动,甚至把整个背景换成你喜欢的场景。

这就是 StreamDiffusionV2 想要实现的目标:让 AI 视频生成像直播一样快,像电影一样稳。

以前的技术就像是一个**“笨重的摄影师”**:它每次都要拍好几十张照片(视频帧),拼在一起才能发出来。这导致观众要等很久才能看到第一张图(延迟高),而且画面经常闪烁、抖动(不连贯)。

StreamDiffusionV2 则像是一个**“超级灵活的快手剪辑师”**,它通过几个聪明的招数解决了所有问题:

1. 拒绝“大锅饭”,改吃“小份餐” (SLO 感知批处理)

  • 以前的做法:为了省时间,AI 一次性处理 80 帧画面(就像一次做 80 份饭)。虽然总产量高,但第一份饭要等很久才能端上桌,而且如果厨房(显卡)忙不过来,后面的饭就全堵住了。
  • StreamDiffusionV2 的做法:它把任务拆成极小的份(比如一次只处理几帧)。
    • 比喻:就像快餐店的流水线。不再等 80 个汉堡做完再一起端,而是每做一个就端一个。这样观众立刻就能看到第一帧画面(0.5 秒内),而且每一帧都能准时送到,不会卡顿。

2. 给 AI 装上“记忆锚点”和“防漂移指南针” (Sink Token & RoPE 刷新)

  • 以前的痛点:直播时间一长(比如几小时),AI 就会“失忆”或“走神”。原本设定的赛博朋克风格,慢慢变成了普通街道;原本连贯的动作,慢慢变得扭曲。这叫“漂移”。
  • StreamDiffusionV2 的做法
    • 记忆锚点 (Sink Token):就像给 AI 戴了一个**“指南针”**。无论直播多久,它都会时不时看看指南针,确认:“嘿,我还在赛博朋克世界,没跑偏。”
    • 防漂移 (RoPE 刷新):就像给 AI 的**“时间轴”定期重置**。防止时间过得太久,AI 搞混了“刚才”和“现在”,确保画面在长时间直播中依然稳定。

3. 根据“路况”自动调节车速 (运动感知噪声控制器)

  • 以前的痛点:不管画面是静止的还是在飙车,AI 都用同一种方式处理。结果就是:静止画面不够清晰,而快速运动的画面(比如拳击手出拳)会变得模糊、撕裂,像鬼影一样。
  • StreamDiffusionV2 的做法:它有一个**“路况雷达”**。
    • 遇到堵车(静止画面):它放慢脚步,精细打磨,让画面更清晰。
    • 遇到高速路(快速运动):它立刻切换模式,减少不必要的修饰,防止画面撕裂和模糊。
    • 比喻:就像老司机开车,在市区慢慢开、仔细看路;在高速上则保持速度、稳住方向,绝不急刹车导致翻车。

4. 多人协作的“超级流水线” (多 GPU 并行编排)

  • 以前的痛点:想让直播更快,多买几张显卡(GPU)一起干,结果发现大家互相“传话”的时间比干活的时间还长,效率反而低了。
  • StreamDiffusionV2 的做法:它设计了一套**“超级流水线”**。
    • 比喻:以前是 4 个厨师各自做一道完整的菜(串行);现在是 4 个厨师分工合作,A 切菜,B 洗菜,C 炒菜,D 装盘。而且他们之间传递食材的通道(通信)被优化到了极致,几乎不浪费时间。
    • 效果:显卡越多,速度越快,而且线性增长(4 张卡就是 4 倍速度),不会因为人多手杂而乱套。

总结:它有多快?多强?

  • 速度:在高端显卡上,它能让一个巨大的 AI 模型(140 亿参数)在0.5 秒内生成第一帧画面,并且每秒能生成58 帧以上的流畅视频(比电影标准的 24 帧快得多)。即使是小一点的模型,也能达到64 帧
  • 稳定性:无论直播多久,画面都不会乱跑、不会闪烁。
  • 适用性:不需要复杂的硬件改造(不用 TensorRT 或量化),从个人创作者到大型直播平台都能用。

一句话总结:
StreamDiffusionV2 就像给 AI 视频生成装上了**“高铁”(极低的延迟)、“导航仪”(长期的稳定性)和“智能调度系统”**(多卡协作),让实时 AI 直播从“科幻概念”变成了“触手可及的现实”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →