Residual Context Diffusion Language Models

本文介绍了残差上下文扩散(Residual Context Diffusion, RCD),这是一种新颖的模块,它将丢弃的标记表示回收为上下文残差,以极小的额外计算和训练数据量,显著提升扩散大语言模型(dLLMs)的准确性与效率。

原作者: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

发布于 2026-06-15
📖 1 分钟阅读☕ 轻松阅读

原作者: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下你正在尝试解决一个复杂的谜题,比如一道数学题或一个谜语。你有一个聪明的助手(人工智能)在协助你。

旧方法:“垃圾桶”策略

在这一代人工智能助手(被称为扩散大语言模型,Diffusion Large Language Models)中,助手试图一次性猜出整个答案,但它是分步骤进行的。

  1. 它观察谜题,并为每一个单词都做一个猜测。
  2. 它检查自己的信心:“我对这个词有 100% 的把握吗?”
  3. 问题在于: 如果它不是 100% 确定,它就会把那个猜测扔进“垃圾桶”(称为重掩码,remasking),并用一个空格来代替。它只保留那些它绝对确定的单词。
  4. 它重复这个过程,填补越来越多的空格,直到谜题完成。

浪费之处: 论文指出这里存在巨大的低效。尽管助手把那些“不确定”的猜测扔进了垃圾桶,但这些猜测实际上包含了有用的线索!它们承载了关于上下文和句子流向的提示。通过丢弃它们,AI 浪费了它刚刚用于计算的所有脑力。这就像一名侦探仅仅因为不能 100% 确定某条不在场证明是否属实,就直接扔掉了嫌疑人的不在场证明,却没意识到那份不在场证明其实包含了一个关键线索。

新方法:“残差上下文”策略

作者提出了一种名为**残差上下文扩散(RCD)**的新方法。与其丢弃那些不确定的猜测,不如将它们保存下来,并将其作为一种“提示”用于下一步。

以下是它的工作原理,使用一个简单的类比:

“耳语助手”类比:
想象你正在尝试写一个故事,而你的助手正在向你耳语建议。

  • 旧方法: 如果助手耳语说:“我觉得下一个词可能是‘猫’,但我不太确定,”你会完全忽略它,然后等待下一轮再询问。
  • RCD 方法: 助手说:“我不 100% 确定是‘猫’,但我有 60% 的把握。让我们把‘猫’这个想法留在脑海中,作为一个‘残差’(即留下的想法)。”

在下一轮中,助手并不是从零开始。它会查看上一轮的“留下的想法”。它会说:“好吧,上次我倾向于‘猫’,那么我就把那个作为起点来进行完善。”

秘诀:“信心计”

论文引入了一个巧妙的技巧来使这一切成为可能。并非所有的“留下的想法”都是平等的。

  • 如果助手非常困惑(高,entropy),这种困惑本身其实包含了大量关于“它不知道什么”的信息。这非常有价值!
  • 如果助手非常自信,那么能获得的额外信息就较少。

RCD 方法使用一个信心计(数学上称为)来决定给予这些“留下的想法”多少权重。如果助手非常不确定,该方法会说:“仔细听这个留下的想法;它很重要!”如果助手很自信,它会说:“我们现在可以忽略这个留下的想法。”

他们是如何教 AI 的(两阶段训练)

教 AI 做这件事非常困难。如果你试图一次性教它,AI 会感到困惑,因为它既要学习如何生成提示,又要学习如何使用这些提示。这就像试图教一个学生在写测试题的同时进行评分。

作者通过两阶段训练法解决了这个问题:

  1. 老师: 他们首先训练一个小型、简单的“老师”AI。这个老师的任务只有一个:观察谜题并说出“这是我的最佳猜测,即使是不确定的猜测也是如此”。
  2. 学生: 然后,他们训练主要的“学生”AI。学生观察谜题,而老师会向它耳语提示(即残差上下文)。学生学习如何利用这些提示更好地解决谜题。

通过这种方式,学生学习如何使用提示,而不会被生成提示的数学逻辑搞混。

结果:更快、更聪明

论文测试了这种新方法在难题(如 AIME 竞赛)和通用推理任务上的表现。

  • 更高的准确率: AI 正确回答问题的数量显著增加。在最难的数学测试中,其准确率与旧方法相比几乎翻倍
  • 更少的步骤: 因为 AI 利用“留下的想法”让自己变得更快更聪明,所以它解决问题所需的猜测轮数更少。这就像通过记住你刚才撞到的死胡同来解开迷宫,而不是忘记它们然后再次撞上。
  • 效率: 它在实现这些结果的同时,并不需要超级计算机。它只是以一种更聪明的方式利用了相同数量的计算能力。

总结

论文认为目前的 AI 模型过于浪费。它们计算了大量信息,然后又将其丢弃。**残差上下文扩散(RCD)**是一种全新的系统,它保存了那些被丢弃的想法,根据 AI 的困惑程度对其进行加权,并将其作为下一步的引导。结果是,AI 变得更聪明、更快,并且在解决数学和逻辑谜题等复杂问题方面表现得更好。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →