原作者： Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

发布于 2026-06-15

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下你正在尝试解决一个复杂的谜题，比如一道数学题或一个谜语。你有一个聪明的助手（人工智能）在协助你。

旧方法：“垃圾桶”策略

在这一代人工智能助手（被称为扩散大语言模型，Diffusion Large Language Models）中，助手试图一次性猜出整个答案，但它是分步骤进行的。

它观察谜题，并为每一个单词都做一个猜测。
它检查自己的信心：“我对这个词有 100% 的把握吗？”
问题在于： 如果它不是 100% 确定，它就会把那个猜测扔进“垃圾桶”（称为重掩码，remasking），并用一个空格来代替。它只保留那些它绝对确定的单词。
它重复这个过程，填补越来越多的空格，直到谜题完成。

浪费之处： 论文指出这里存在巨大的低效。尽管助手把那些“不确定”的猜测扔进了垃圾桶，但这些猜测实际上包含了有用的线索！它们承载了关于上下文和句子流向的提示。通过丢弃它们，AI 浪费了它刚刚用于计算的所有脑力。这就像一名侦探仅仅因为不能 100% 确定某条不在场证明是否属实，就直接扔掉了嫌疑人的不在场证明，却没意识到那份不在场证明其实包含了一个关键线索。

新方法：“残差上下文”策略

作者提出了一种名为**残差上下文扩散（RCD）**的新方法。与其丢弃那些不确定的猜测，不如将它们保存下来，并将其作为一种“提示”用于下一步。

以下是它的工作原理，使用一个简单的类比：

“耳语助手”类比：
想象你正在尝试写一个故事，而你的助手正在向你耳语建议。

旧方法： 如果助手耳语说：“我觉得下一个词可能是‘猫’，但我不太确定，”你会完全忽略它，然后等待下一轮再询问。
RCD 方法： 助手说：“我不 100% 确定是‘猫’，但我有 60% 的把握。让我们把‘猫’这个想法留在脑海中，作为一个‘残差’（即留下的想法）。”

在下一轮中，助手并不是从零开始。它会查看上一轮的“留下的想法”。它会说：“好吧，上次我倾向于‘猫’，那么我就把那个作为起点来进行完善。”

秘诀：“信心计”

论文引入了一个巧妙的技巧来使这一切成为可能。并非所有的“留下的想法”都是平等的。

如果助手非常困惑（高熵，entropy），这种困惑本身其实包含了大量关于“它不知道什么”的信息。这非常有价值！
如果助手非常自信，那么能获得的额外信息就较少。

RCD 方法使用一个信心计（数学上称为熵）来决定给予这些“留下的想法”多少权重。如果助手非常不确定，该方法会说：“仔细听这个留下的想法；它很重要！”如果助手很自信，它会说：“我们现在可以忽略这个留下的想法。”

他们是如何教 AI 的（两阶段训练）

教 AI 做这件事非常困难。如果你试图一次性教它，AI 会感到困惑，因为它既要学习如何生成提示，又要学习如何使用这些提示。这就像试图教一个学生在写测试题的同时进行评分。

作者通过两阶段训练法解决了这个问题：

老师： 他们首先训练一个小型、简单的“老师”AI。这个老师的任务只有一个：观察谜题并说出“这是我的最佳猜测，即使是不确定的猜测也是如此”。
学生： 然后，他们训练主要的“学生”AI。学生观察谜题，而老师会向它耳语提示（即残差上下文）。学生学习如何利用这些提示更好地解决谜题。

通过这种方式，学生学习如何使用提示，而不会被生成提示的数学逻辑搞混。

结果：更快、更聪明

论文测试了这种新方法在难题（如 AIME 竞赛）和通用推理任务上的表现。

更高的准确率： AI 正确回答问题的数量显著增加。在最难的数学测试中，其准确率与旧方法相比几乎翻倍。
更少的步骤： 因为 AI 利用“留下的想法”让自己变得更快更聪明，所以它解决问题所需的猜测轮数更少。这就像通过记住你刚才撞到的死胡同来解开迷宫，而不是忘记它们然后再次撞上。
效率： 它在实现这些结果的同时，并不需要超级计算机。它只是以一种更聪明的方式利用了相同数量的计算能力。

总结

论文认为目前的 AI 模型过于浪费。它们计算了大量信息，然后又将其丢弃。**残差上下文扩散（RCD）**是一种全新的系统，它保存了那些被丢弃的想法，根据 AI 的困惑程度对其进行加权，并将其作为下一步的引导。结果是，AI 变得更聪明、更快，并且在解决数学和逻辑谜题等复杂问题方面表现得更好。

技术摘要：残差上下文扩散语言模型 (Residual Context Diffusion Language Models)

问题陈述

扩散大语言模型 (dLLMs) 为自回归 (AR) 模型提供了一种极具前景 world 的替代方案，通过实现并行 Token 解码，有望将推理过程从受内存带宽限制的范式转向受计算利用率限制的范式。然而，最先进的块状 (block-wise) dLLM 在准确度上与自回归模型相比仍存在显著差距。这种差距在推理过程中使用的“重掩码” (remasking) 机制中被进一步放大：在每一次去噪迭代中，模型仅保留置信度最高的 Token，并将其余 Token 重置为静态掩码 Token，从而将其丢弃。

作者观察到，这一过程实际上浪费了对低置信度（被丢弃）Token 所进行的中间计算。正如 Token 回召分析 (token recall analysis) 所展示的那样，这些中间分布包含了关于全局上下文的结构化、具有语义信息的信号，这些信号对于后续的解码步骤至关重要。标准的 dLLM 丢弃了这些信息，导致尽管单 Token 计算成本更高，但准确度却不理想。

方法论：残差上下文扩散 (Residual Context Diffusion, RCD)

本文提出了 残差上下文扩散 (RCD) 框架，该框架通过将丢弃 Token 的潜在表示视为“上下文残差”，并将其重新注入下一轮去噪步骤，从而回收了这些被丢弃 Token 的计算量。

1. 熵加权残差注入

RCD 不再直接丢弃低置信度 Token，而是将它们的预测概率分布转换为连续的嵌入向量（软 Token），并将其注入到下一步的输入中。

残差构建： 对于位置 $i$ 和步骤 $t$ 的 Token，残差信息 $\Delta_i^{(t)}$ 计算为基于预测概率分布 $p_i^{(t)}$ 的词表嵌入加权和：
$\Delta_i^{(t)} = \sum_{j=1}^{V} p_{i,j}^{(t)} E_{j,:}$
高速公路连接 (Highway Connection)： 为了防止原始输入与残差之间出现量级失配，RCD 使用高速公路连接来插值当前掩码 Token 嵌入与来自前一步的残差：
$\tilde{e}_i^{(t)} = (1 - \alpha_i^{(t-1)}) E(x_i^{(t)}) + \alpha_i^{(t-1)} \Delta_i^{(t-1)}$
（其中当 $x_i^{(t)} = [M]$ 时为掩码 Token）。
基于熵的加权： 贡献权重 $\alpha_i^{(t)}$ 是根据预测 Token 分布的归一化香农熵动态确定的。高熵 Token（低置信度）被分配更高的权重，因为据假设，它们携带了更多用于细化序列的关键结构信息。

2. 解耦的两阶段训练流水线

由于递归依赖关系（第 $t$ 步的输入取决于第 $t-1$ 步的输出）会产生类似于 RNN 的长展开计算图，端到端训练 RCD 在计算上是极其昂贵的。为了绕过内存瓶颈，作者提出了一个两阶段训练策略：

阶段 1（参考模型）： 一个轻量级的预训练 dLLM 被微调以作为冻结的“参考模型” ( $M_{ref}$ )。它生成高质量的概率分布和熵权重，用于处理掩码输入。
阶段 2（目标模型训练）： “目标模型” ( $M_{target}$ ) 利用来自冻结的 $M_{ref}$ 的信号进行训练。在训练期间， $M_{ref}$ 提供概率分布和熵权重以构建残差向量，随后将其注入到 $M_{target}$ 的输入嵌入中。这实现了残差生成与其利用的解耦，从而允许进行标准的单步监督学习，而无需进行随时间反向传播 (backpropagation through time)。

3. 推理策略

在推理期间，模型转入一个自我引用的循环，即生成自身的残差。为了弥合训练（代理）阶段与推理（自我生成）阶段之间的分布差距，作者引入了：

温度缩放熵 (Temperature-Scaled Entropy)： 一个标量 $T_{res}$ 用于调节用于计算熵的概率分布的“软度”，从而校准模型的置信度以匹配训练分布。
初始化： 该过程可以使用参考模型的初始预测进行“热启动”，或使用零向量进行“冷启动”。

核心贡献

残差上下文机制： 一种新颖的模块，用于回收 dLLM 中被丢弃的 Token 表示，将浪费的计算转化为引导性的上下文信号。
熵驱动聚合： 一种基于归一化香农熵对残差信息进行加权的原则性方法，确保不确定的 Token 对上下文细化做出更多贡献。
高效的训练流水线： 一种解耦的两阶段训练方法，避免了随时间反向传播带来的内存瓶颈，能够以极少的数据量（约 3 亿个 Token）将标准 dLLM 转换为 RCD 范式。
新的帕累托权衡 (Pareto Trade-off)： 该方法引入了一个关于去噪步数与残差传输的新权衡旋钮，允许在等效延迟下获得更高的准确度，或者在相同准确度下使用显著更少的步数。

实验结果

作者在两个不同的 dLLM 系列上验证了 RCD：LLaDA（双向全局上下文）和 SDAR（半自回归块状）。

准确度提升： RCD 在包括 GSM8K、MATH500 和 MinervaMath 在内的基准测试中，一致地将前沿 dLLM 的表现提升了 4–11 个百分点。
复杂推理： 在极具挑战性的 AIME24/25 基准测试中，RCD 几乎使基准准确度翻倍（例如，SDAR-8B-b64 在 AIME24 上从 7.08% 提高到 18.75%）。
效率： RCD 以极小的额外计算开销实现了这些增益。它能以 4–5 倍更少的去噪步数 达到基准模型的峰值准确度。
数据效率： RCD 仅需约 3 亿个 Token 的训练数据即可达到高水平的推理准确度，而竞争性的基于潜变量的方法（如 Loopholing）在相同的预算下无法生成连贯的序列。
可扩展性： 该方法在 4B 到 8B 参数模型以及不同块大小（32 和 64 个 Token）之间表现出稳健的扩展能力。

重要性与主张

本文声称，当前 dLLM 的主要瓶颈不在于缺乏训练步数或模型容量，而在于由重掩码策略引起的信息丢失。通过回收被丢弃 Token 的“浪费”计算，RCD 解锁了扩散模型在保持并行解码优势的同时，匹配甚至超越自回归模型推理能力的潜力。

作者将 RCD 定位为一种实用且可扩展的解决方案，用于高保真并行文本生成。他们强调，该方法不需要对骨干模型进行架构更改，而是改变了解码和训练范式，这使其成为提升下一代扩散语言模型准确性和效率的一条可行路径。

Residual Context Diffusion Language Models