ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何让扩散大语言模型（Diffusion LLMs）跑得更快、更省力的论文。为了让你轻松理解，我们可以把生成文本的过程想象成**“在迷雾中画一幅画”**。

1. 背景：迷雾中的画家（什么是扩散模型？）

想象一下，你是一位画家，面前有一块全是白点的画布（这代表还没生成的文字）。

传统的模型（自回归模型，ARM）：像是一个按部就班的工匠。他必须从左到右，画完一个点，确认没问题了，再画下一个点。虽然稳，但速度很慢，因为不能同时画很多点。
扩散模型（dLLM）：像是一个拥有“上帝视角”的画家。他看着整块画布，知道大概要画什么。他的工作方式是：先给画布蒙上一层厚厚的迷雾（全是乱码或占位符），然后反复地、同时地擦除迷雾，把模糊的轮廓一点点变清晰，直到所有点都变成清晰的文字。

问题出在哪？
虽然扩散模型能“同时”擦除迷雾，看起来很酷，但它有个大毛病：每次擦除迷雾时，它都要把整块画布（所有文字位置）重新检查一遍，哪怕大部分地方其实根本没变！
这就好比你为了擦掉画布角落的一个小污点，却把整幅画重新描了一遍，非常浪费时间和精力。

2. 核心发现：其实大部分地方都在“发呆”

作者通过观察发现了一个有趣的现象：
在反复擦除迷雾的过程中，画布上绝大多数的地方其实变化非常微小。

比如，第 10 次擦除和第 11 次擦除，画布上 90% 的区域看起来几乎一模一样。
只有少数几个关键位置（比如刚擦干净的地方）发生了剧烈变化。

以前的做法：不管变没变，每次都把整块画布重新算一遍。
作者的想法：既然大部分地方都在“发呆”（没变化），我们能不能只盯着那些真正在变的地方看，把那些“发呆”的地方直接跳过？

3. 解决方案：ES-dLLM（“早退”策略）

作者提出了一种叫 ES-dLLM 的新方法，它的核心思想是**“偷懒”（Early-Skipping，早跳）**。

我们可以把它想象成一个聪明的监工：

观察员（重要性评分）：
在每一轮擦除迷雾之前，监工先快速扫一眼画布。他手里有两个工具：
- 自信度：看哪些地方已经擦得很干净了（很确定是什么字了），这些地方就不需要再费心去算。
- 变化量：看哪些地方刚才动静很大（刚擦出来的新字），这些地方需要重点关注。
- 比喻：就像老师批改作业，如果学生前面的题都写对了且很稳，老师就快速跳过；如果学生刚改了一道题，老师就仔细检查这道题。
早退机制（跳过计算）：
监工发现，画布上有很多位置其实不需要重新计算。于是，他命令模型：“这些位置，你们先‘早退’休息吧，不用参与接下来的复杂运算了！”
只有那些被标记为“重要”的位置，才会继续走完全套复杂的计算流程。
缓存复用（记忆术）：
对于那些“早退”的位置，模型不会把它们忘了。它会记住上次算好的结果（缓存），下次直接拿来用，不用重新算。这就好比**“既然你昨天穿的衣服没变，今天就不用重新买衣服了，直接穿昨天的就行”**。

4. 效果如何？（惊人的加速）

作者用这个“偷懒”的方法测试了两种先进的模型（LLaDA 和 Dream）：

速度提升：
- 比原来的“笨办法”快了 5.6 倍到 16.8 倍！
- 比目前市面上最先进的“缓存优化法”（DualCache）还要快 1.85 倍。
- 比喻：以前画一幅画要 1 小时，现在只要 5 分钟，而且画得一样好。
质量不变：
最神奇的是，虽然模型“偷懒”跳过了很多计算，但画出来的画（生成的文字）质量几乎没有下降。这说明那些被跳过的地方，确实真的不需要重新算。

5. 总结

这篇论文的核心就是告诉我们要**“好钢用在刀刃上”**。

在扩散模型生成文字时，我们不需要每次都把整块画布重新过一遍。通过智能地识别哪些地方在变化、哪些地方在“发呆”，我们可以让模型跳过那些没用的计算。

这就好比你在开车去目的地，如果前面的路是直的且没车，你就不需要每秒钟都猛踩刹车和油门，保持匀速滑行即可。ES-dLLM 就是那个让 AI 学会“滑行”的聪明导航系统，让它跑得更快、更省电，而且不会迷路。

一句话总结：
ES-dLLM 让 AI 学会了“抓重点”，在生成文字时，只计算真正变化的地方，跳过那些没变化的“废话”，从而实现了惊人的速度提升。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于ES-dLLM（Early-Skipping Diffusion Large Language Models）的论文技术总结，该论文发表于 ICLR 2026。ES-dLLM 提出了一种无需训练（training-free）的推理加速框架，旨在解决扩散大语言模型（dLLMs）在推理过程中计算冗余的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

扩散大语言模型 (dLLMs) 的兴起：与传统的自回归模型（ARMs）不同，dLLMs 通过迭代去噪过程生成文本，能够捕捉双向上下文并支持并行解码。尽管工业界模型（如 Mercury, Gemini Diffusion）展示了极快的速度，但开源模型（如 LLaDA, Dream）的推理效率仍然较低，甚至慢于同等规模的自回归模型。
核心瓶颈：dLLMs 在每一次迭代中都需要处理整个序列（包括所有掩码 token），导致巨大的计算开销。
冗余计算现象：
- 在生成过程中，每次迭代通常只有一小部分高置信度的 token 被“解掩码”（unmasked），其余大部分 token 保持掩码状态。
- 由于相邻迭代的输入仅在新解掩码的 token 位置发生变化，绝大多数 token 的中间表示（如 Key, Value, Hidden States）和置信度分数在连续迭代间变化极小。
- 然而，传统的推理流程仍然对所有 token 位置计算 Logits，造成了大量的无效计算。

2. 核心观察 (Key Observations)

作者通过实验分析了 LLaDA-8B 和 Dream-7B 的生成动态，发现：

置信度变化微小：大多数位置的置信度（Confidence Score）在连续迭代间的差异极小，呈指数分布，集中在零附近。
隐藏状态变化微小：中间张量（特别是隐藏状态）在相邻迭代间的变化（Variation）也非常小，只有少数位置表现出显著变化。
结论：可以利用这些微小的变化来预测 token 的重要性，从而在推理的早期层中跳过那些对结果贡献不大的 token 计算。

3. 方法论：ES-dLLM (Methodology)

ES-dLLM 是一个无需训练的推理加速框架，包含两个核心组件：

A. 重要性评分估计 (Importance Score Estimation)

为了决定哪些 token 需要计算，哪些可以跳过，ES-dLLM 为每个位置计算一个重要性分数 $I_{l,i}$ ：
$I_{l,i} = \alpha \cdot c^{(t-1)}_i + (1-\alpha) \cdot \frac{||H^{(t)}_{l,i} - H^{(t-1)}_{l,i}||_1}{\sqrt{d} \cdot ||H^{(t-1)}_{l,i}||_2}$

$c^{(t-1)}_i$ ：上一轮迭代的置信度分数。高置信度意味着该 token 更可能被选中解掩码。
中间张量变化项：衡量当前层隐藏状态（ $H$ ）与上一轮的变化量。变化大意味着该位置受新生成 token 的影响大，需要更新。
$\alpha$ ：超参数，平衡置信度和变化量的权重（实验中设为 0.5）。

B. 部分缓存更新与早期跳过 (Partial Cache Update and Early Skip)

早期跳过机制：在 Transformer 的特定早期层（如第 1/8 和 1/4 层），根据计算出的重要性分数，只保留 Top-k 个最重要的 token 进行后续计算，其余 token 被跳过（Skip）。
缓存维护：
- 系统维护 Key、Value 和隐藏状态的缓存。
- 对于被跳过的 token，其缓存直接复用上一轮的结果，不进行重新计算。
- 对于被选中的 token，执行正常的 Attention 和 FFN 计算，并原位更新（in-place scatter）对应的缓存。
误差控制：为了防止误差累积，系统会定期（Periodically）对 Prompt 部分或当前 Block 的所有 token 进行完整的刷新（无跳过）。

4. 实验结果 (Results)

实验在 NVIDIA H200 GPU 上进行，对比了 LLaDA-8B 和 Dream-7B 模型，基准包括 GSM8K, MATH, BBH, HumanEval, MBPP 等数据集。

吞吐量提升 (Throughput)：
- LLaDA-8B：最高达到 226.57 tokens/s，相比原生实现加速 5.6x - 16.8x，相比 SOTA 缓存方法（DualCache）加速 1.20x - 1.85x。
- Dream-7B：最高达到 308.51 tokens/s，相比原生实现加速 5.6x - 16.8x，相比 DualCache 加速 1.20x - 1.85x。
生成质量 (Quality)：
- ES-dLLM 在大多数基准测试中保持了与原生模型相当甚至略优的性能分数（Pass@1 或 Accuracy）。
- 在部分数据集（如 BBH, MBPP）上，通过增加 Prompt 缓存的刷新频率（ES-dLLM*），有效解决了 DualCache 存在的精度下降问题。
消融实验：
- 证明了结合“置信度”和“张量变化”比单独使用其中一项效果更好。
- 隐藏状态（Hidden States）作为变化指标效果略好于 K/V 矩阵，但 K/V 矩阵也是可行的替代方案。
兼容性：ES-dLLM 可以与并行解码（Parallel Decoding）和稀疏注意力（Sparse Attention）技术正交结合，进一步将加速比提升至 7.56x (Dream-7B)。

5. 主要贡献 (Contributions)

特性分析：首次系统性地揭示了 dLLM 生成过程中中间张量和置信度在迭代间变化微小的特性，指出了消除冗余计算的潜力。
框架提出：提出了 ES-dLLM，一种无需额外训练即可通过“早期跳过”低重要性 token 来加速推理的框架。
显著性能：在保持生成质量不下降的前提下，实现了高达 16.8 倍的加速，并优于现有的 SOTA 缓存优化方法。
开源与复现：提供了完整的代码和实验脚本，支持多种基准测试和模型。

6. 意义与局限性 (Significance & Limitations)

意义：
- 为 dLLMs 的实用化扫清了效率障碍，使其推理速度能够媲美甚至超越自回归模型。
- 提供了一种通用的、即插即用的优化思路，不仅适用于 dLLMs，其“基于变化量跳过计算”的思想也可能启发其他迭代式生成模型。
- 证明了在 dLLM 推理中存在巨大的计算冗余，且可以通过简单的启发式规则有效利用。
局限性：
- 重要性评分依赖于简单的启发式规则，而非学习得到的预测。
- 部分 KV 缓存更新机制与 dLLM 训练时假设的完整状态更新存在差异，可能导致微小的误差累积（虽已通过刷新机制缓解）。
- 目前的加速受限于显存带宽（Memory-bound），理论 FLOPs 减少量（约 60%）与实际加速比（1.85x）之间存在差距，未来需结合系统级优化（如算子融合、显存优化）来进一步挖掘潜力。

总结：ES-dLLM 通过敏锐地捕捉扩散模型生成过程中的“状态稳定性”，利用早期跳过策略大幅削减了无效计算，在几乎不牺牲质量的前提下实现了数量级的推理加速，是扩散大模型推理优化领域的一项重要突破。