Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

该论文指出强化学习导致大语言模型推理多样性下降的根源在于其隐式优化了“零强制”反向 KL 散度,并提出了一种基于α\alpha-散度族的新方法,通过显式构建目标分布并调节精度与多样性的权衡,在 Lean 定理证明基准上实现了覆盖率和精度的最优平衡。

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能(特别是大型语言模型,LLM)在解决复杂推理任务时的核心矛盾:“精准度”与“多样性”之间的权衡

为了让你轻松理解,我们可以把训练一个能解决数学难题的 AI 模型,想象成训练一支探险队去探索一座充满宝藏(正确答案)的迷宫

1. 背景:传统的训练方法出了什么问题?

现状:
目前,为了让 AI 变得更聪明,研究者通常使用一种叫“强化学习”(RL)的方法。这就像给探险队发任务:只要找到宝藏(正确答案),就发奖金;如果走错了,就扣分。

问题:
传统的强化学习(如 GRPO、PPO 等方法)有一个致命的副作用:它会让探险队变得“盲目且固执”

  • 比喻: 想象探险队发现了一条通往宝藏的捷径。传统的训练方法会强迫所有队员都只走这一条路,甚至把其他所有路都封死。
  • 后果: 虽然他们找到宝藏的概率很高(精准度高),但一旦这条唯一的捷径被堵死,或者遇到稍微变一点的迷宫,整个队伍就束手无策了。这就是论文中提到的**“多样性丧失”**(Mode Collapse)。AI 变得只会一种解法,失去了探索其他可能性的能力。

2. 核心观点:只要“剩下的”都是对的

论文引用了福尔摩斯的一句名言:“当你排除了所有不可能,剩下的无论多么不可思议,都一定是真相。”

作者认为,我们不应该强迫 AI 只走某一条特定的路,而应该建立一个规则:只要答案是对的,就保留它;只要答案是错的,就扔掉它。 至于剩下的那些正确答案,应该保留它们原本的概率分布,不要人为地让某一种答案变得特别突出。

3. 新方法:α\alpha-DPG(智能的“过滤器”)

作者提出了一种新方法,叫 DMVR(基于验证器的分布匹配),核心工具是 α\alpha-DPG

这个新方法是如何工作的?

想象你在筛选一批探险队员:

  1. 设定目标: 我们有一个“过滤器”(Verifier),能瞬间判断谁的答案是对的。
  2. α\alpha 参数(调节旋钮): 这是这篇论文最巧妙的地方。作者引入了一个参数 α\alpha,就像是一个**“多样性调节旋钮”**。
  • 当旋钮拧向“精准模式”(α\alpha 接近 1):

    • 这就像传统的强化学习。过滤器非常严格,只保留那些最热门、最确定的答案。
    • 结果: 队伍非常精准,几乎每次都能答对(Pass@1 高),但大家只会一种解法,缺乏多样性。
  • 当旋钮拧向“探索模式”(α\alpha 接近 0):

    • 这就像“拒绝采样”(RS-FT)。过滤器只把明显错误的踢出去,剩下的所有正确答案都保留,并且尽量保持原来的样子。
    • 结果: 队伍非常多样化,能想出各种各样的解法(覆盖率高,Pass@256 高)。虽然单次随机抽中正确答案的概率可能略低,但只要给足够多的尝试机会(比如抽 256 次),几乎肯定能找到一个正确答案。
  • 当旋钮在中间(α\alpha = 0.5 或其他值):

    • 这就在“精准”和“多样”之间找到了完美的平衡点。

4. 实验结果:在 Lean 定理证明器上的表现

作者在一个叫 Lean 的数学证明工具上测试了这种方法。Lean 就像一个极其严格的数学考官,只有完全正确的证明才能通过。

  • 之前的模型(传统 RL): 像是一个只会死记硬背的学生。考试时,如果题目稍微变一下,他就不会了。虽然做对简单题很快,但遇到难题就“死机”了。
  • 作者的模型(α\alpha-DPG): 像是一个**“全能型探险家”**。
    • 如果你需要**“一击必杀”**(只要一个答案),你可以把旋钮调高,它表现得和最好的传统模型一样好。
    • 如果你需要**“广撒网”(尝试几百种解法,确保至少有一个是对的),你可以把旋钮调低。这时候,它的表现远超**所有其他方法。它能生成极其多样的证明路径,极大地提高了找到难题解法的概率。

5. 总结:为什么这很重要?

这篇论文告诉我们,AI 的“变笨”(多样性丧失)并不是因为我们要它变聪明,而是因为我们训练它的“方式”错了。

传统的强化学习像是一个独裁的教练,强迫所有队员只练一种招式。
而作者提出的 α\alpha-DPG 像是一个智慧的导师,它说:“只要你们不犯错(通过验证器),你们可以保留各自独特的风格。你们可以想怎么练就怎么练,只要最后结果是好的就行。”

一句话总结:
通过引入一个可调节的“多样性旋钮”,这篇论文让 AI 在保持高准确率的同时,不再失去探索未知解法的能力,真正实现了**“既精准又博学”**。这对于解决那些没有标准答案、需要创造性思维的复杂问题(如数学证明、代码生成)至关重要。