原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下你正在尝试解决一个复杂的谜题,比如一道数学题或一个谜语。你有一个聪明的助手(人工智能)在协助你。
旧方法:“垃圾桶”策略
在这一代人工智能助手(被称为扩散大语言模型,Diffusion Large Language Models)中,助手试图一次性猜出整个答案,但它是分步骤进行的。
- 它观察谜题,并为每一个单词都做一个猜测。
- 它检查自己的信心:“我对这个词有 100% 的把握吗?”
- 问题在于: 如果它不是 100% 确定,它就会把那个猜测扔进“垃圾桶”(称为重掩码,remasking),并用一个空格来代替。它只保留那些它绝对确定的单词。
- 它重复这个过程,填补越来越多的空格,直到谜题完成。
浪费之处: 论文指出这里存在巨大的低效。尽管助手把那些“不确定”的猜测扔进了垃圾桶,但这些猜测实际上包含了有用的线索!它们承载了关于上下文和句子流向的提示。通过丢弃它们,AI 浪费了它刚刚用于计算的所有脑力。这就像一名侦探仅仅因为不能 100% 确定某条不在场证明是否属实,就直接扔掉了嫌疑人的不在场证明,却没意识到那份不在场证明其实包含了一个关键线索。
新方法:“残差上下文”策略
作者提出了一种名为**残差上下文扩散(RCD)**的新方法。与其丢弃那些不确定的猜测,不如将它们保存下来,并将其作为一种“提示”用于下一步。
以下是它的工作原理,使用一个简单的类比:
“耳语助手”类比:
想象你正在尝试写一个故事,而你的助手正在向你耳语建议。
- 旧方法: 如果助手耳语说:“我觉得下一个词可能是‘猫’,但我不太确定,”你会完全忽略它,然后等待下一轮再询问。
- RCD 方法: 助手说:“我不 100% 确定是‘猫’,但我有 60% 的把握。让我们把‘猫’这个想法留在脑海中,作为一个‘残差’(即留下的想法)。”
在下一轮中,助手并不是从零开始。它会查看上一轮的“留下的想法”。它会说:“好吧,上次我倾向于‘猫’,那么我就把那个作为起点来进行完善。”
秘诀:“信心计”
论文引入了一个巧妙的技巧来使这一切成为可能。并非所有的“留下的想法”都是平等的。
- 如果助手非常困惑(高熵,entropy),这种困惑本身其实包含了大量关于“它不知道什么”的信息。这非常有价值!
- 如果助手非常自信,那么能获得的额外信息就较少。
RCD 方法使用一个信心计(数学上称为熵)来决定给予这些“留下的想法”多少权重。如果助手非常不确定,该方法会说:“仔细听这个留下的想法;它很重要!”如果助手很自信,它会说:“我们现在可以忽略这个留下的想法。”
他们是如何教 AI 的(两阶段训练)
教 AI 做这件事非常困难。如果你试图一次性教它,AI 会感到困惑,因为它既要学习如何生成提示,又要学习如何使用这些提示。这就像试图教一个学生在写测试题的同时进行评分。
作者通过两阶段训练法解决了这个问题:
- 老师: 他们首先训练一个小型、简单的“老师”AI。这个老师的任务只有一个:观察谜题并说出“这是我的最佳猜测,即使是不确定的猜测也是如此”。
- 学生: 然后,他们训练主要的“学生”AI。学生观察谜题,而老师会向它耳语提示(即残差上下文)。学生学习如何利用这些提示更好地解决谜题。
通过这种方式,学生学习如何使用提示,而不会被生成提示的数学逻辑搞混。
结果:更快、更聪明
论文测试了这种新方法在难题(如 AIME 竞赛)和通用推理任务上的表现。
- 更高的准确率: AI 正确回答问题的数量显著增加。在最难的数学测试中,其准确率与旧方法相比几乎翻倍。
- 更少的步骤: 因为 AI 利用“留下的想法”让自己变得更快更聪明,所以它解决问题所需的猜测轮数更少。这就像通过记住你刚才撞到的死胡同来解开迷宫,而不是忘记它们然后再次撞上。
- 效率: 它在实现这些结果的同时,并不需要超级计算机。它只是以一种更聪明的方式利用了相同数量的计算能力。
总结
论文认为目前的 AI 模型过于浪费。它们计算了大量信息,然后又将其丢弃。**残差上下文扩散(RCD)**是一种全新的系统,它保存了那些被丢弃的想法,根据 AI 的困惑程度对其进行加权,并将其作为下一步的引导。结果是,AI 变得更聪明、更快,并且在解决数学和逻辑谜题等复杂问题方面表现得更好。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。