Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

该论文指出大推理模型在强化学习后训练中出现了探索崩溃现象,并提出了无需额外训练或参数的“潜在探索解码”(LED)方法,通过聚合中间层后验分布并选择熵最大的深度配置,有效提升了模型在多个推理基准上的准确率。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何让大型人工智能(AI)模型变得更聪明、更有“创造力”的论文。为了让你轻松理解,我们可以把这篇论文的核心思想比作**“在迷宫中寻找出口”**的故事。

🧠 背景:AI 变聪明了,但也变“固执”了

想象一下,现在的 AI 模型(比如用来解数学题或写代码的“大推理模型”)就像是一个超级学霸

  • 以前:这个学霸在解题时,会尝试很多种不同的思路(比如先试 A 方法,不行再试 B 方法)。如果让他多试几次(增加采样温度),他往往能碰运气找到正确答案。
  • 现在:为了让这个学霸在“第一次尝试”就答对(提高 Pass@1 准确率),研究人员用了一种叫“强化学习”的特训方法。
  • 副作用:特训后的学霸变得极度自信且固执。当他面对一个问题时,他的大脑(模型的最外层)会迅速锁定一个他认为“绝对正确”的答案,并彻底忽略其他可能性。
    • 问题所在:这种“过度自信”导致他失去了探索能力。如果你让他多试几次(比如让他多跑几遍),他因为太固执,每次都会死板地选同一个(可能是错的)答案,导致成功率并没有提高。这就叫**“探索崩溃”**。

🔍 发现:学霸的“潜意识”里还有犹豫

论文作者发现了一个有趣的现象:
虽然学霸的**“最终结论”(最外层)非常自信、死板,但在他的“思考过程”(中间层)中,其实还保留着很多犹豫和不确定性**。

  • 这就好比一个人嘴上说:“我确定答案是 42!”(最终层,非常自信)。
  • 但他脑子里的潜意识(中间层)其实还在想:“等等,如果是 43 呢?或者 41 呢?好像也有道理……"(中间层,保留了多种可能性)。

之前的 AI 解码方法只盯着那个“嘴上说的最终结论”,完全忽略了脑子里那些还在犹豫的“潜意识”。

💡 解决方案:LED(潜层探索解码)

作者提出了一种叫 LED (Latent Exploration Decoding) 的新方法,就像给这个固执的学霸装了一个**“潜意识探测器”**。

1. 核心操作:不只看结论,要看“思考过程”

  • 传统做法:直接问学霸:“答案是什么?”然后直接输出。
  • LED 做法
    1. 收集线索:在学霸还没得出最终结论之前,把他思考过程中的每一个“中间想法”都记录下来。
    2. 筛选:只保留那些看起来比较靠谱的“中间想法”(比如前 20 个最可能的选项)。
    3. 聚合:把这些中间想法加起来,看看哪个组合最“丰富多彩”(熵最高,也就是不确定性最大,意味着可能性最多)。
    4. 决策
      • 如果学霸对某个词非常确定(比如“是的”、“开始”),那就直接听他的(利用/Exploitation),因为这时候不需要探索。
      • 如果学霸有点犹豫(比如在思考数学难题的关键步骤),那就启动“潜意识探测器”,从那些“中间想法”里挑一个最有探索价值的方向继续走(探索/Exploration)。

2. 生动的比喻:在迷雾森林中找路

想象你在一个迷雾森林(复杂的数学题)里找出口。

  • 旧方法(RL 后训练后的模型):向导(AI)非常自信地指着一条路说:“走这边!肯定对!”结果你跟着走,发现是死胡同。因为向导太自信,你不敢问“有没有别的路?”,他也不会告诉你。
  • LED 方法
    • 向导依然会自信地指路。
    • 但 LED 会偷偷查看向导之前的犹豫:“刚才他在路口停了一下,好像觉得左边那条路也不错,只是最后没选。”
    • 当向导犹豫不决时,LED 就会说:“既然你也不确定,那我们就试试你刚才犹豫的那条路吧!”
    • 这样,AI 就能在保持自信的同时,重新获得**“多试几次”**的能力,从而更有可能找到正确的出口。

🚀 效果如何?

  • 不用重新训练:这个方法不需要重新训练模型,不需要增加额外的参数,就像给现有的汽车加了一个“导航辅助插件”。
  • 立竿见影:在多个数学、科学和编程的测试中,LED 让 AI 的单次答对率(Pass@1)和多次尝试答对率(Pass@16)都提升了。
    • 简单来说:不仅让 AI 第一次就答对的概率变高了,更重要的是,当你给它多次机会时,它真的能利用这些机会找到正确答案了,不再是一个“死脑筋”。

📝 总结

这篇论文的核心思想就是:现在的 AI 太自信了,导致它失去了“试错”的能力。作者发现 AI 的“思考过程”里其实还藏着很多可能性,于是发明了一种方法,在 AI 犹豫的时候,利用这些“潜意识”来重新激发它的探索精神,让它既能保持自信,又能灵活变通。

这就好比教一个过于自信的学生:“别急着下定论,回头看看你刚才思考时的那些‘备选方案’,也许那里藏着真正的正确答案。”