DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

该论文提出了 DSV 方法,通过利用动态注意力稀疏性、两阶段低秩近似算法及混合稀疏感知上下文并行策略,在无需损失生成质量的前提下,将大规模视频 DiT 训练的吞吐量最高提升了 3.02 倍。

Xin Tan, Yuetao Chen, Yimin Jiang, Xing Chen, Kun Yan, Nan Duan, Yibo Zhu, Daxin Jiang, Hong Xu

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DSV 的新系统,它的目标是让 AI 生成高质量视频的速度快得惊人(最高提速 3 倍),同时还能保证视频质量不下降。

为了让你轻松理解,我们可以把训练一个能生成视频的 AI(叫做 DiT 模型)想象成让一个超级大厨在厨房里做一道极其复杂的“视频大餐”

1. 现在的痛点:大厨在“数米粒”

  • 背景:现在的 AI 做视频,就像大厨要把视频里的每一帧画面都拆成成千上万个“像素小颗粒”(Token)。
  • 问题:为了把视频做好,大厨需要检查每一个小颗粒和所有其他小颗粒之间的关系。如果视频有 10 万个颗粒,大厨就要做 100 亿次(100,000×100,000100,000 \times 100,000)的对比检查。
  • 比喻:这就像让大厨在 10 万粒米里,把每一粒米都和其他 10 万粒米比一遍,看看它们是不是“好朋友”。这太浪费时间了!而且,随着视频变长、变清晰,这个工作量是爆炸式增长的。在训练过程中,90% 以上的时间都浪费在了这种无意义的“数米粒”上。

2. 核心发现:其实大部分米粒都是“路人甲”

研究人员通过观察发现了一个有趣的现象:

  • 动态稀疏性:虽然大厨理论上需要检查所有米粒,但实际上,只有极少数的米粒是真正重要的(比如主角、关键动作),绝大多数米粒对结果影响微乎其微。
  • 比喻:就像在一场万人演唱会里,虽然有 1 万名观众,但真正在台上唱歌、互动的只有几个明星。其他 9990 个人虽然在场,但他们的存在对“谁在唱歌”这件事影响不大。
  • 难点:以前的 AI 不知道哪些是明星,哪些是路人,所以只能全员检查。而且,这个“明星名单”不是固定的,它随着训练过程在动态变化,甚至每一秒钟都在变。

3. DSV 的解决方案:聪明的“选角导演”

DSV 系统就像给大厨配备了一位超级聪明的“选角导演”,它通过三个步骤来加速:

第一步:两阶段训练(先学艺,再干活)

  • 阶段一(学艺):在刚开始训练时,大厨还是老老实实地检查所有米粒。同时,DSV 派出一位“小助手”(低秩预测器),专门负责学习如何快速识别哪些米粒是“明星”。
  • 阶段二(干活):一旦小助手学会了(大概几万次迭代后),它就开始介入。每当大厨要开始检查时,小助手先快速扫一眼,只把真正重要的“明星米粒”挑出来,告诉大厨:“只检查这几个就行,其他的忽略!”
  • 效果:大厨的工作量瞬间从 100 亿次降到了几百次。

第二步:特制工具(融合核)

  • 问题:如果直接挑出明星,可能会因为工具不顺手,反而把时间花在“挑”这个动作上。
  • 解决:DSV 设计了特制的“厨房工具”(定制内核)。它把“挑选”和“检查”这两个动作融合在一起,像流水线一样一气呵成。
  • 比喻:以前是“先拿个大筛子筛一遍,再一个个挑”,现在是“拿着特制的漏勺,一边筛一边就把明星捞出来了”,效率极高。

第三步:动态分派(智能排班)

  • 问题:现在有很多台电脑(GPU)一起帮大厨干活。以前大家是平均分配任务,但现在因为有的任务轻(稀疏度高),有的任务重(稀疏度低),导致有的电脑累死,有的电脑在摸鱼(负载不均)。
  • 解决:DSV 引入了“智能排班系统”。它根据每个任务的实际轻重,动态调整哪台电脑干哪部分活。
  • 比喻:就像快递分拣中心,以前是每人分一样多的包裹。现在发现有的包裹很轻(稀疏),有的很重。DSV 会指挥:“那个轻包裹多的区域,多派几个人;那个重包裹少的区域,少派点人”,确保所有人同时下班,没有人在等别人。

4. 最终成果:又快又好

  • 速度:在 128 张顶级显卡上,DSV 让训练速度提升了 3 倍 以上。原本需要跑很久的长视频、高清视频,现在能快很多倍完成。
  • 质量:最重要的是,虽然只检查了“明星米粒”,但做出来的视频质量完全没有下降,和以前“全员检查”做出来的效果一样好。
  • 人类测试:甚至让人类评委盲测,他们也分不清哪个是加速版做的,哪个是原版做的,大家都觉得加速版做的视频很棒。

总结

DSV 的核心思想就是:
不要试图去理解世界上的每一粒灰尘,而是学会快速识别哪些灰尘是构成画面的关键。通过智能预测特制工具动态分工,让 AI 在训练视频时,从“笨拙地数米粒”变成了“聪明地抓重点”,从而实现了速度与质量的双赢。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →