DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DyLLM 的新方法，旨在让一种叫做“扩散语言模型”（Diffusion LLM）的 AI 生成文字时变得更快、更省电，同时还能保持很高的准确性。

为了让你轻松理解，我们可以把 AI 写文章的过程想象成**“在一张满是乱码的画布上画画”**。

1. 背景：AI 是怎么“画画”的？

传统的 AI（自回归模型，ARLM）：
想象一个画家，他必须一个字一个字地写。写完第一个字，才能写第二个，再写第三个。这就像排队，虽然每一步很快，但如果要写长文章，排队时间就太长了。
扩散模型（MDLM）：
这种新 AI 像是一个**“先涂满全图，再慢慢擦除”的画家。
一开始，它把整张画布（整篇文章）都涂成灰色的马赛克（全是乱码）。然后，它开始一轮一轮地“去噪”：每一轮，它都会重新审视整张画，把一些看起来像字的马赛克擦掉，露出真正的字。
优点： 它可以同时擦除很多个马赛克（并行生成），速度理论上很快。
缺点： 每一轮它都要重新检查整张画布上的每一个像素**。哪怕大部分马赛克已经不动了，它还是得重新计算一遍。这就像你为了擦掉画布角落的一粒灰尘，却把整面墙重新粉刷了一遍，非常浪费力气（计算资源）。

2. 核心发现：大部分地方其实“没变”

论文的作者发现了一个有趣的现象：
在 AI 反复“擦除马赛克”的过程中，画布上绝大多数的地方其实已经定型了，不再发生变化。只有极少数的关键位置（作者称之为“显著词”，Salient Tokens）还在剧烈变动，需要重新计算。

比喻： 想象你在修图。大部分背景（蓝天、草地）已经修好了，每一帧都一模一样。只有主角的脸部表情在微调。如果你每一帧都把蓝天和草地重新渲染一遍，那太傻了！

3. DyLLM 的解决方案：只修“重点”

DyLLM 就是为了解决这个“傻修图”的问题而生的。它做了两件事：

A. 智能“抓重点” (Saliency-based Token Selection)

DyLLM 会像一位敏锐的监工，在每一轮去噪时，快速检查画布上的每个部分：

问： “这个位置跟上一轮比，变了吗？”
如果没变（相似度很高）： 监工说：“别算了，直接沿用上一轮的结果（缓存）。”
如果变了（相似度低）： 监工说：“这里很重要，赶紧重新算！”

比喻： 就像你整理房间。如果昨天收拾好的书架今天没动，你就不用重新擦一遍书架，直接跳过，只去擦那个新弄乱的桌子。

B. 聪明的“局部修补” (Partial Attention)

对于不需要重算的部分，DyLLM 不仅不重算，还发明了一种**“近似修补法”**。
它不需要重新计算整个画布的关联，只需要计算那些“变动部分”对“静止部分”的微小影响。

比喻： 以前修图，每改一个像素，都要重新计算它和周围 1000 个像素的关系。现在，DyLLM 发现只有 5 个像素在动，它只计算这 5 个像素和周围的关系，剩下的 995 个像素直接沿用旧数据。

4. 效果如何？

通过这种“抓大放小”的策略，DyLLM 取得了惊人的效果：

速度提升： 在测试中，它的生成速度比原来的方法快了 7.6 倍到 9.6 倍。
- 比喻： 原来画完一幅画要 10 分钟，现在只要 1 分钟，而且画出来的东西几乎一样好。
质量保持： 虽然它偷懒（跳过了很多计算），但画出来的文章逻辑通顺、代码正确，并没有因为“偷懒”而变傻。
无需重新训练： 这是一个“插件式”的方法，不需要重新训练 AI 模型，直接套用在现有的模型上就能生效。

5. 总结

DyLLM 的核心思想就是：
在 AI 反复修改文章的过程中，不要每次都“全盘重算”。要像聪明的编辑一样，只盯着那些真正在变化的“关键句子”去修改，对于已经定稿的“背景文字”，直接复用旧结果。

这让原本笨重、耗时的扩散模型，变得像传统模型一样轻快，甚至更快，为未来 AI 的实时、高效应用铺平了道路。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
掩码扩散语言模型（Masked Diffusion Language Models, MDLMs，如 LLaDA, Dream）通过并行解码（Parallel Decoding）打破了自回归语言模型（ARLMs）逐词生成的序列限制，理论上能显著提高生成吞吐量。MDLMs 将生成过程视为一个全局去噪任务，通过迭代地“去掩码”（unmasking）来逐步完善序列。

核心痛点：
尽管 MDLMs 支持并行，但其迭代去噪过程带来了巨大的计算瓶颈：

重复的全序列处理：与 ARLMs 可以利用 KV Cache 仅计算新 token 不同，MDLMs 在每一步去噪中都需要重新处理整个序列（Prompt + Response），因为双向注意力机制（Bidirectional Attention）依赖于全局上下文。这导致每一步都类似于一次昂贵的“预填充（Prefill）”操作。
计算冗余：研究表明，在连续的去噪步骤中，大多数 token 的表示（Representations）非常稳定，只有少数 token 发生了显著变化。然而，现有的实现方法仍然对所有 token 进行全量计算（包括前馈网络 FFN 和注意力机制），造成了大量的计算浪费。
现有加速方案的局限：
- 基于缓存的方法（如 Fast-dLLM, dKV-Cache）通常依赖固定的块状（Block-wise）刷新策略，无法捕捉扩散过程中不同层（Layer-wise）的动态变化。
- 基于激活相似性的方法（如 dLLM-Cache）虽然利用了相似性，但往往缺乏细粒度的阈值控制，且需要针对特定模型和数据集进行繁琐的超参数调整。

2. 方法论 (Methodology)

作者提出了 DyLLM，一种无需训练（Training-free）的推理加速框架。其核心思想是利用扩散步骤中的时间稀疏性（Temporal Sparsity），即只重新计算那些发生显著语义变化的“显著 Token（Salient Tokens）”，而重用其他稳定 Token 的缓存结果。

2.1 核心洞察

层自适应的时间稀疏性：在连续的去噪步骤中，大部分 token 的注意力上下文（Attention Context）保持高度一致（余弦相似度接近 1.0），只有少量 token 发生显著变化。这种稳定性在不同层表现出不同的分布（浅层更稳定，深层变化更多）。
位置感知的 Delta 传播：语义变化（Semantic Deltas）是局部稀疏的，可以分解并高效传播。

2.2 关键技术组件

A. 显著性 Token 选择 (Saliency-based Token Selection)

指标：通过计算相邻去噪步骤 $t$ 和 $t-1$ 之间 token 注意力上下文向量的余弦相似度 $s^{(i)}_{t,l}$ 来衡量稳定性。
$s^{(i)}_{t,l} = \frac{C^{(i)}_{t,l} \cdot C^{(i)}_{t-1,l}}{\|C^{(i)}_{t,l}\| \|C^{(i)}_{t-1,l}\|}$
选择机制：设定阈值 $\tau$ 。如果 $s^{(i)}_{t,l} \le \tau$ ，则该 token 被标记为“显著 Token"（Salient Token），需要重新计算；否则视为非显著 Token，直接复用上一轮的 KV Cache 和 FFN 输出。
理论保证：论文证明了在 RMSNorm 和线性投影下，注意力上下文的余弦相似度与 FFN 输出的近似误差之间存在直接的上界关系。这意味着通过控制相似度阈值，可以严格控制误差传播。

B. 显著性感知近似注意力 (Saliency-Aware Approximate Attention)
为了进一步降低注意力机制的 $O(N^2)$ 复杂度，DyLLM 提出了一种双路径更新策略：

显著路径（精确更新）：对于显著 Token，重新计算其完整的注意力分数行，以动态更新注意力模式。
非显著路径（近似更新）：对于非显著 Token，假设其 Query 向量基本不变（ $\Delta S \approx 0$ ）。注意力上下文的更新简化为 $\Delta C \approx S \cdot \Delta V$ 。由于 $\Delta V$ 仅在显著 Token 对应的列上非零（稀疏），非显著 Token 只需从显著 Token 获取更新。

效果：将注意力计算复杂度从 $O(N^2 d)$ 降低到 $O(N \cdot |A_{t-1,l}| d)$ ，其中 $|A_{t-1,l}|$ 是显著 Token 的数量（通常远小于序列长度 $N$ ）。

C. 响应仅步骤 (Response-only Step)

利用 RoPE（旋转位置编码）的局部性偏差，显著更新通常集中在最新未掩码的响应 Token 附近。
DyLLM 在大部分步骤中仅将响应部分作为输入进行计算，仅在固定间隔（如每 4 步）将完整序列（Prompt + Response）输入以刷新上下文。即使在完整序列输入时，也仅对显著 Token 进行计算。

3. 主要贡献 (Key Contributions)

层自适应显著性机制 (Layer-Adaptive Saliency Mechanism)：提出了一种动态策略，在每一层独立识别显著 Token，允许模型跳过稳定隐藏状态下的冗余 FFN 计算。
显著性感知近似注意力 (Saliency-Aware Approximate Attention)：利用激活稀疏性消除冗余的上下文更新，显著降低了注意力操作的计算复杂度。
可扩展的吞吐量提升：证明了 DyLLM 随着并行解码度（ $\nu$ ）的增加具有鲁棒的扩展性，在保持精度的同时实现了显著的加速。

4. 实验结果 (Results)

实验在 LLaDA 8B 和 Dream 7B 模型上进行了评估，基准包括 GSM8K（数学推理）、MBPP（代码生成）、MATH 和 MMLU-pro。

吞吐量提升：
- 在 LLaDA 上实现了最高 7.6 倍 的吞吐量提升。
- 在 Dream 上实现了最高 9.6 倍 的吞吐量提升。
- 随着并行解码度 $\nu$ 的增加，DyLLM 的优势进一步扩大，而基于固定刷新策略的基线方法（如 Fast-dLLM）因全序列刷新开销过大导致性能下降。
精度保持：
- 在大多数基准测试中，DyLLM 的精度与原始模型（Baseline）持平，甚至在某些配置下（如 GSM8K 上的 LLaDA）略有提升（例如从 77.79 提升至 79.08）。
- 这得益于显著性选择机制过滤掉了低相关性的噪声 token，反而可能提高了生成质量。
对比基线：
- 相比 Fast-dLLM 和 dLLM-Cache，DyLLM 不需要针对特定数据集调整超参数（如刷新间隔），具有更好的通用性。
- 在长序列和高并行度场景下，DyLLM 避免了全序列刷新带来的性能瓶颈。

5. 意义与结论 (Significance)

解决扩散 LLM 的效率悖论：DyLLM 成功解决了扩散模型“并行解码潜力”与“迭代去噪高计算成本”之间的矛盾。它证明了扩散步骤中的冗余并非均匀的，而是高度稀疏且依赖于层的。
无需训练的通用加速：作为一种无需重新训练模型的推理框架，DyLLM 可以即插即用于现有的 MDLMs（如 LLaDA, Dream），降低了应用门槛。
未来方向：该工作为扩散语言模型的实时应用铺平了道路，使其吞吐量能够接近甚至在某些场景下超越自回归模型，同时保留了扩散模型在生成多样性和可控性方面的优势。

总结：DyLLM 通过精细化的 Token 级稀疏计算和近似注意力机制，将扩散语言模型的推理从“全量重复计算”转变为“按需更新”，在几乎不损失精度的前提下，实现了数量级的推理加速。