Diffusion LLMs can think EoS-by-EoS

该论文提出并验证了扩散大语言模型能够利用端到序列(EoS)标记的隐藏状态作为“思维草稿”来执行复杂推理,即通过“逐 EoS 思考”机制,在生成长度超出实际需求时利用冗余的 EoS 标记进行隐式计算。

Sarah Breckner, Sebastian Schuster

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)如何“思考”的有趣发现。简单来说,研究人员发现一种新型 AI(称为扩散模型)有一种独特的“超能力”:它可以通过假装在发呆(生成无意义的结束符号)来变得更聪明。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文的核心内容:

1. 核心发现:AI 的“草稿纸”是隐形的

想象一下,你让一个普通学生(传统的自回归模型,比如现在的 ChatGPT)做一道复杂的数学题。

  • 普通学生:必须把解题步骤一步步写出来(“因为 A 等于 B,所以 C 等于 D...")。如果题目很难,他需要写很长很长的步骤才能算对。
  • 新型 AI(扩散模型):它被要求直接给出答案,不许写过程。但是,研究人员发现,如果你强行给它更多的“答题空间”(比如让它输出 80 个字符,而答案其实只需要 10 个字符),它会把剩下的 70 个字符填满一些无意义的“结束符号”(EoS,就像在试卷最后画一堆乱码或者写“完”字)。

惊人的发现是:这些看似无用的“结束符号”,其实是新型 AI 的隐形草稿纸。它利用这些符号在内部进行复杂的计算和推理,最后只吐出那个正确的答案。

2. 实验一:给更多的“发呆时间”

研究人员做了个实验,就像给 AI 布置作业:

  • 任务:做加法、数数盒子里的东西、或者玩数独。
  • 变量:让 AI 输出的总长度变长。
  • 结果:当 AI 被迫输出更多字符(其中大部分是填充的“结束符号”)时,它的正确率反而提高了
  • 比喻:这就像你让一个厨师做菜,告诉他“你必须占用厨房 1 个小时,哪怕菜只要 10 分钟做完”。结果发现,厨师利用多出来的 50 分钟在脑海里预演了无数种切菜和调味的方案,最后端出来的菜反而更好吃了。

3. 实验二:直接塞给 AI“草稿纸”

为了证明那些“结束符号”真的有用,研究人员玩了一个更硬核的实验:

  • 操作:他们不改变任务,而是直接在 AI 开始思考前,人为地塞给它几个“结束符号”作为占位符。
  • 结果:只要塞给 AI 4 个这样的符号,它的表现就突飞猛进,甚至不需要增加总长度。
  • 比喻:这就像你给一个正在解题的人递上一张空白的草稿纸。哪怕你不让他写过程,只要给他这张纸,他就能在纸上打草稿,思路瞬间清晰。

4. 实验三:偷换“大脑”里的草稿

这是最酷的部分,用来证明这些符号里真的藏着“思考”。

  • 操作:研究人员做了两个不同的题目(比如一个是“把苹果放进盒子”,另一个是“把香蕉放进盒子”)。他们在 AI 处理第一个题目时,偷偷把 AI 脑子里关于“结束符号”的内部状态(就像大脑里的神经元活动),直接“移植”到处理第二个题目时的 AI 脑子里。
  • 结果:AI 原本应该回答“香蕉”,结果因为脑子里有了“苹果”的草稿,它竟然开始回答关于“苹果”的内容,或者输出完全混乱的答案。
  • 比喻:这就像你让一个人做数学题,但他脑子里其实正在想“怎么做红烧肉”。如果你强行把他的“红烧肉”思维塞进另一个人的脑子里,那个人也会开始想红烧肉。这证明了那些“结束符号”里确实存储着具体的计算过程,而不是随便画的乱码。

5. 为什么这很重要?

  • 效率更高:传统的 AI 要“大声思考”(Chain of Thought),把每一步都写出来,这很占字数,也很慢。而这种新型 AI 是“静音思考”,它把思考过程压缩在那些看不见的符号里,既省空间又快。
  • 不同的“大脑”构造:这种能力主要出现在扩散模型中,因为它们可以同时看到整段文字(双向注意力),就像你可以同时看到草稿纸的开头和结尾。而传统的模型像是一行行写字,很难利用后面的空白处。
  • 特例:论文也提到,有一种叫 LLaDA2.0 的模型不太行,因为它被设计成只能看“局部”,就像一个人只能看自己眼前的几行字,看不到后面的空白,所以它没法利用这些“隐形草稿纸”。

总结

这篇论文告诉我们,AI 并不总是需要把思考过程“说”出来才能变聪明。

扩散模型学会了一种新技能:利用无意义的填充符号作为隐形的“思维空间”。这就像是一个天才学生在考试时,虽然只写了最终答案,但他利用试卷上所有的空白处(End-of-Sequence tokens)在脑海里完成了所有复杂的演算。

这对未来的 AI 发展很有意义:我们可能不需要让 AI 啰嗦地解释每一步,只要给它足够的“隐形空间”,它就能在沉默中解决更复杂的问题。