Streaming Autoregressive Video Generation via Diagonal Distillation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“对角蒸馏”（Diagonal Distillation）的新技术，它的核心目标是让 AI 生成视频变得既快又好**，特别是能够像直播一样实时生成视频，而不是像以前那样需要等待很久才能看到结果。

为了让你更容易理解，我们可以把生成视频的过程想象成**“画一幅长长的连环画”**。

1. 以前的难题：要么慢，要么糊

传统的大模型（慢）： 以前的 AI 画视频，就像是一个超级画家。它要画完整个故事（比如 5 秒钟的视频）的所有画面，并且每一笔都要反复修改、精雕细琢，确保每一帧都完美，而且画面之间要连贯。这就像画家要画完 100 页连环画，每一页都要画 10 遍才能定稿。虽然画得很美，但太慢了，根本没法实时看。
自回归模型（快但容易糊）： 为了变快，另一种方法是让 AI**“边画边看”。画完第一页，就把它当成参考去画第二页，再画第三页。这就像“传话游戏”**，虽然速度快，但传着传着，信息就会失真。画到后面，画面可能会变得模糊、动作不连贯，甚至出现“鬼影”或过度饱和（颜色太艳）。

2. 核心创意：对角线策略（Diagonal Distillation）

作者发现，画连环画其实不需要每一页都花同样的力气。

以前的做法： 每一页都画 5 遍（5 个步骤）。
作者的新做法（对角线）：
- 开头几页（关键帧）： 我们花大力气，画 5 遍，确保故事开头的人物、背景、动作基调非常清晰、准确。
- 中间几页： 既然开头已经定好了，后面可以稍微省力一点，画 4 遍、3 遍。
- 最后几页： 只要顺着开头的感觉画，画 2 遍就够了。

比喻： 这就像盖楼。

地基（开头）必须打得非常深、非常稳（多花步骤），这样楼才能盖得高。
一旦地基稳了，上面的楼层（后面的视频片段）就可以盖得快一些（少花步骤），因为它们可以“继承”地基的稳固性。
这种**“前重后轻”的策略，就像在时间轴和精细度之间画了一条对角线**，既省了时间，又保证了质量。

3. 两大黑科技：解决“传话失真”和“动作僵硬”

虽然“前重后轻”省了时间，但直接这么用会有两个问题：

误差累积（传话失真）： 如果后面的画完全依赖前面画的（哪怕前面画得再好），只要有一点点小错误，后面就会越错越离谱。
动作僵硬： 如果后面画得太快（步骤太少），人物的动作可能会变得像慢动作或者僵硬，没有活力。

为了解决这两个问题，作者用了两个“魔法”：

A. 对角强迫（Diagonal Forcing）：给“传话”加个“修正器”

问题： 以前 AI 画第二页时，是看着第一页的“完美成品”画的。但现实中，AI 画第二页时，手里拿的其实是第一页的“半成品”（带着噪点）。这导致训练和实际使用对不上。
解决： 作者让 AI 在训练时，故意看着“带噪点的半成品”去画下一张。
比喻： 就像教学生做题。以前是老师把标准答案给学生看，让学生做下一题。现在老师故意把草稿纸（带涂改痕迹的）给学生看，让学生练习如何从草稿推导出正确答案。这样，学生（AI）在真正考试（生成视频）时，面对草稿纸就不会慌了，也不会把错误无限放大。

B. 流分布匹配（Flow Distribution Matching）：给动作加个“导航仪”

问题： 步骤少了，动作容易变慢、变僵硬。
解决： 作者教 AI 去“感受”物体的运动轨迹（光流）。
比喻： 就像教人跳舞。以前只教“摆个姿势”（静态画面），现在不仅教姿势，还教**“怎么动”**（动作的流畅度）。即使步骤少了，AI 也能通过“运动导航仪”记住动作的幅度，保证人物动起来依然自然流畅，不会像机器人一样卡顿。

4. 成果：快如闪电，画质惊人

这项技术的效果非常惊人：

速度： 以前生成 5 秒视频可能需要几分钟，现在只需要2.61 秒（甚至能达到每秒 31 帧，比电影还流畅）。
加速比： 比原来的模型快了277 倍！
质量： 在这么快的速度下，视频依然清晰，动作连贯，没有明显的“鬼影”或画面崩坏。

总结

这篇论文就像给 AI 视频生成装上了一个**“智能加速器”。它不再盲目地每一帧都死磕，而是懂得“好钢用在刀刃上”**（开头多花功夫，后面顺势而为），并通过特殊的训练方法（对角强迫）和运动导航（流匹配），让 AI 在极速生成的同时，依然能画出连贯、自然的长视频。

这意味着未来我们可能真的能实现**“实时视频生成”**：你说话，AI 就能像直播一样，实时生成对应的视频画面，用于游戏、教育或虚拟助手，而不再需要漫长的等待。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《STREAMING AUTOREGRESSIVE VIDEO GENERATION VIA DIAGONAL DISTILLATION》（通过对角蒸馏实现流式自回归视频生成）的技术总结。

1. 研究背景与问题 (Problem)

背景：

扩散模型（Diffusion Models）： 虽然基于 Diffusion Transformer 的模型在视频生成质量上取得了巨大进步，但它们通常采用双向注意力机制，需要一次性生成所有帧，导致无法用于实时流式场景（如游戏模拟、机器人学习），因为未来帧在生成当前帧时是不可用的。
自回归模型（Autoregressive Models）： 逐块（chunk-by-chunk）生成的自回归模型天然适合流式场景，但传统的 GPT 类模型视觉质量较低。
现有混合方案与瓶颈： 近期工作将扩散过程引入自回归生成以提升质量，但通常每个视频块仍需要多次去噪步数（multi-step），导致推理延迟高，难以实时部署。
蒸馏的局限性： 现有的视频蒸馏方法大多直接迁移自图像生成，忽略了时间维度的依赖关系。这导致在长序列生成中出现运动连贯性差、误差累积（Error Accumulation）以及过度饱和（Over-saturation）等问题。此外，现有的“自强迫”（Self-Forcing）等方法虽然缓解了训练 - 推理差距，但在压缩步数后仍面临长序列质量下降的挑战。

核心痛点：

时间上下文利用不足： 在减少去噪步数时，未能充分利用视频块之间的时间上下文信息。
暴露偏差（Exposure Bias）： 在预测下一个视频块时，模型隐式地预测了后续的噪声水平。如果训练和推理条件不匹配（例如训练用干净帧，推理用生成帧），会导致误差随时间累积，表现为后期帧质量下降或过度饱和。
运动衰减： 在极少步数（Few-step）的去噪过程中，往往会导致运动幅度减弱或动态不一致。

2. 方法论 (Methodology)

作者提出了 Diagonal Distillation（对角蒸馏） 框架，核心思想是非对称的去噪策略，即早期视频块使用更多步数，后期视频块使用更少步数，并通过以下三个关键组件实现：

A. 对角去噪与对角强迫 (Diagonal Denoising & Diagonal Forcing)

非对称步数分配： 不同于所有视频块使用固定步数，该方法对前几个视频块（如前 3 块）使用较多的去噪步数（如 5, 4, 3 步），建立高质量的结构先验；随后的块逐渐减少步数（如降至 2 步）。
对角强迫（Diagonal Forcing）： 这是训练策略的核心创新。
- 机制： 在训练过程中，当前块的生成条件并非完全基于干净的真实帧（Teacher Forcing）或完全基于模型自身的生成帧（Self-Forcing），而是基于前一个块的去噪轨迹中的中间噪声状态。
- 实现： 通过受控的噪声注入，将前一个块的输出 $X_{k-1}$ 加噪得到 $\tilde{X}_{k-1}$ ，将其作为下一个块 $X_k$ 的 KV Cache（Key-Value Cache）输入。
- 作用： 这种“对角”路径（从 $X_{k-1}$ 到 $\tilde{X}_{k-1}$ 再到 $X_k$ ）显式地模拟了推理时的对角去噪轨迹，使模型在训练阶段就适应了“基于部分去噪的中间状态”进行预测，从而显著减少了长序列中的误差累积和分布偏移。

B. 流分布匹配 (Flow Distribution Matching)

问题： 仅靠空间分布匹配（DMD）在步数极少时会导致运动幅度衰减（Motion Attenuation）。
解决方案： 引入显式的时间建模。
- 定义了一个光流（Optical Flow）损失函数，不仅匹配像素分布，还匹配**运动流场（Motion Flow Field）**的分布。
- 使用轻量级的、可学习的运动特征提取模块 $F(\cdot)$ （基于潜在空间差分的卷积），直接在潜在表示上计算光流，无需外部预训练的光流估计器。
- 通过最小化生成视频与真实视频在光流分布上的 KL 散度，确保学生模型在极少步数下仍能保持与教师模型一致的运动动态和幅度。

C. 流式推理架构

采用滚动 KV Cache 机制，复用前一个块的中间噪声状态作为条件。
结合 Tiny VAE 进行高效的 Tokenization，进一步降低解码延迟。

3. 主要贡献 (Key Contributions)

对角蒸馏（Diagonal Distillation）： 提出了一种高效的自回归视频生成方法，通过“前多后少”的非对称步数分配策略，利用早期块的结构先验，在保证质量的同时大幅减少总去噪步数。
对角强迫（Diagonal Forcing）： 一种统一的训练范式，通过在训练和推理中统一对角去噪轨迹（利用噪声注入的 KV Cache），有效解决了自回归生成中的暴露偏差和长序列误差累积问题。
流分布匹配（Flow Distribution Matching）： 将显式的光流建模引入蒸馏损失，解决了少步数去噪导致的运动幅度衰减问题，确保了动态一致性。
SOTA 性能： 实现了极致的推理速度，同时保持了高质量的生成效果。

4. 实验结果 (Results)

速度提升： 在单张 NVIDIA H100 GPU 上，生成 5 秒视频仅需 2.61 秒，帧率高达 31 FPS。
加速比： 相比未蒸馏的基线模型（Wan2.1），实现了 277.3 倍 的加速；相比之前的最快方法 Self-Forcing，延迟降低了 1.53 倍。
质量指标： 在 VBench 基准测试中，总评分达到 84.48，在帧质量（Frame Quality）和语义一致性（Semantic Alignment）上均优于或持平于现有的 SOTA 方法（如 Causvid, Self-Forcing, Wan2.1）。
长视频表现： 在 45 秒的长视频生成中，该方法能保持稳定的视觉质量，而基线方法（如 Causvid）会出现明显的饱和失真和质量衰减。
用户研究： 在包含 93 名参与者的盲测中，该方法在视觉质量、文本忠实度和长期一致性方面，相比 Causvid 获得了 66.1% 的偏好率，相比 Wan2.1 获得了 62.7% 的偏好率。

5. 意义与影响 (Significance)

实时流式生成的突破： 该工作打破了高质量视频生成与实时性之间的传统权衡，使得在单卡上实现低延迟、高帧率的流式视频生成成为可能，为游戏模拟、机器人实时交互等应用铺平了道路。
理论创新： 揭示了自回归视频生成中“隐式噪声水平预测”的暴露偏差问题，并提出了“对角”视角的解决方案，为未来的视频蒸馏和自回归模型训练提供了新的范式。
效率与质量的平衡： 证明了通过利用时间上下文（对角路径）和显式运动约束（光流匹配），可以在大幅减少计算量（NFEs）的同时，不牺牲甚至提升生成视频的动态连贯性。

总结：
DiagDistill 通过重新定义自回归视频生成中的时间上下文利用方式，结合非对称步数分配、对角强迫训练策略和光流分布匹配，成功解决了长序列生成中的误差累积和运动失真问题，实现了目前最高效且高质量的流式视频生成方案。