Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能（特别是大型语言模型，LLM）在解决复杂推理任务时的核心矛盾：“精准度”与“多样性”之间的权衡。

为了让你轻松理解，我们可以把训练一个能解决数学难题的 AI 模型，想象成训练一支探险队去探索一座充满宝藏（正确答案）的迷宫。

1. 背景：传统的训练方法出了什么问题？

现状：
目前，为了让 AI 变得更聪明，研究者通常使用一种叫“强化学习”（RL）的方法。这就像给探险队发任务：只要找到宝藏（正确答案），就发奖金；如果走错了，就扣分。

问题：
传统的强化学习（如 GRPO、PPO 等方法）有一个致命的副作用：它会让探险队变得“盲目且固执”。

比喻： 想象探险队发现了一条通往宝藏的捷径。传统的训练方法会强迫所有队员都只走这一条路，甚至把其他所有路都封死。
后果： 虽然他们找到宝藏的概率很高（精准度高），但一旦这条唯一的捷径被堵死，或者遇到稍微变一点的迷宫，整个队伍就束手无策了。这就是论文中提到的**“多样性丧失”**（Mode Collapse）。AI 变得只会一种解法，失去了探索其他可能性的能力。

2. 核心观点：只要“剩下的”都是对的

论文引用了福尔摩斯的一句名言：“当你排除了所有不可能，剩下的无论多么不可思议，都一定是真相。”

作者认为，我们不应该强迫 AI 只走某一条特定的路，而应该建立一个规则：只要答案是对的，就保留它；只要答案是错的，就扔掉它。 至于剩下的那些正确答案，应该保留它们原本的概率分布，不要人为地让某一种答案变得特别突出。

3. 新方法： $\alpha$ -DPG（智能的“过滤器”）

作者提出了一种新方法，叫 DMVR（基于验证器的分布匹配），核心工具是 $\alpha$ -DPG。

这个新方法是如何工作的？

想象你在筛选一批探险队员：

设定目标： 我们有一个“过滤器”（Verifier），能瞬间判断谁的答案是对的。
$\alpha$ 参数（调节旋钮）： 这是这篇论文最巧妙的地方。作者引入了一个参数 $\alpha$ ，就像是一个**“多样性调节旋钮”**。

当旋钮拧向“精准模式”（ $\alpha$ 接近 1）：
- 这就像传统的强化学习。过滤器非常严格，只保留那些最热门、最确定的答案。
- 结果： 队伍非常精准，几乎每次都能答对（Pass@1 高），但大家只会一种解法，缺乏多样性。
当旋钮拧向“探索模式”（ $\alpha$ 接近 0）：
- 这就像“拒绝采样”（RS-FT）。过滤器只把明显错误的踢出去，剩下的所有正确答案都保留，并且尽量保持原来的样子。
- 结果： 队伍非常多样化，能想出各种各样的解法（覆盖率高，Pass@256 高）。虽然单次随机抽中正确答案的概率可能略低，但只要给足够多的尝试机会（比如抽 256 次），几乎肯定能找到一个正确答案。
当旋钮在中间（ $\alpha$ = 0.5 或其他值）：
- 这就在“精准”和“多样”之间找到了完美的平衡点。

4. 实验结果：在 Lean 定理证明器上的表现

作者在一个叫 Lean 的数学证明工具上测试了这种方法。Lean 就像一个极其严格的数学考官，只有完全正确的证明才能通过。

之前的模型（传统 RL）： 像是一个只会死记硬背的学生。考试时，如果题目稍微变一下，他就不会了。虽然做对简单题很快，但遇到难题就“死机”了。
作者的模型（ $\alpha$ -DPG）： 像是一个**“全能型探险家”**。
- 如果你需要**“一击必杀”**（只要一个答案），你可以把旋钮调高，它表现得和最好的传统模型一样好。
- 如果你需要**“广撒网”（尝试几百种解法，确保至少有一个是对的），你可以把旋钮调低。这时候，它的表现远超**所有其他方法。它能生成极其多样的证明路径，极大地提高了找到难题解法的概率。

5. 总结：为什么这很重要？

这篇论文告诉我们，AI 的“变笨”（多样性丧失）并不是因为我们要它变聪明，而是因为我们训练它的“方式”错了。

传统的强化学习像是一个独裁的教练，强迫所有队员只练一种招式。
而作者提出的 $\alpha$ -DPG 像是一个智慧的导师，它说：“只要你们不犯错（通过验证器），你们可以保留各自独特的风格。你们可以想怎么练就怎么练，只要最后结果是好的就行。”

一句话总结：
通过引入一个可调节的“多样性旋钮”，这篇论文让 AI 在保持高准确率的同时，不再失去探索未知解法的能力，真正实现了**“既精准又博学”**。这对于解决那些没有标准答案、需要创造性思维的复杂问题（如数学证明、代码生成）至关重要。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DMVR (Distributional Matching with Verifiable Rewards) 的新框架，旨在解决基于强化学习（RL）的大语言模型（LLM）推理训练中出现的多样性丧失问题。文章通过引入 $\alpha$ -散度族（ $\alpha$ -divergences）来平衡精度（Precision）与覆盖率（Coverage），在 Lean 定理证明基准上取得了最先进的性能。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现状： 强化学习（特别是可验证奖励强化学习 RLVR，如 PPO、GRPO）已成为微调 LLM 进行推理任务（如数学证明、代码生成）的事实标准。
核心问题： 尽管 RLVR 能显著提高模型的准确率（Pass@1），但越来越多的证据表明，它会导致模型输出多样性显著下降（即“模式坍塌”或 Mode Collapse）。
原因分析： 作者指出，现有的 RLVR 方法隐式地优化了反向 KL 散度（Reverse KL Divergence）。反向 KL 是一种“寻找模式（Mode-seeking）”或“零强制（Zero-forcing）”的散度，它倾向于将概率质量集中在目标分布的高概率区域（即少数几个正确答案），而忽略目标分布中的其他有效模式。这导致模型虽然准确，但缺乏探索能力，难以覆盖所有可能的正确解。
目标： 需要在保持高准确率的同时，保留基座模型（Base Model）中蕴含的多样性，实现精度与多样性的最佳权衡。

2. 方法论 (Methodology)

作者提出了 DMVR 框架，其核心思想是显式定义目标分布，并通过**分布匹配（Distribution Matching）**技术来近似它，而不是依赖传统的 RL 策略梯度。

2.1 显式目标分布

作者定义了一个理想的目标分布 $p_x(y)$ ，该分布满足两个条件：

正确性： 只包含被验证器（Verifier）判定为正确的回答。
多样性保持： 在满足正确性的前提下，尽可能保持与基座模型 $\pi_{base}$ 的相对概率分布一致。
数学表达为：
$p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$
其中 $v(y, x)$ 是二元验证函数（正确为 1，错误为 0）。

2.2 $\alpha$ -DPG 算法

为了近似上述目标分布，作者采用了 Distributional Policy Gradient (DPG) 算法，并引入了 $\alpha$ -散度 族来统一控制精度与多样性的权衡：

反向 KL ( $\alpha \to 1$ )： 对应传统的 RLVR（如 GRPO），强调精度，但牺牲多样性（Mode-seeking）。
前向 KL ( $\alpha \to 0$ )： 对应 KL-DPG 或拒绝采样微调（RS-FT），强调覆盖所有模式（Mass-covering），但可能包含低质量样本。
$\alpha$ -DPG： 通过调节参数 $\alpha \in [0, 1]$ $α \in [0, 1]$ ，在两者之间进行平滑插值。
- 当 $\alpha$ 接近 1 时，模型行为类似 GRPO，追求高精度。
- 当 $\alpha$ 接近 0 时，模型行为类似 KL-DPG，追求高多样性。
- 中间值（如 $\alpha=0.5$ ）对应平方 Hellinger 距离，提供平衡。

伪奖励函数 (Pseudo-reward)：
算法通过最小化 $f$ -散度（此处为 $\alpha$ -散度）来更新策略，其伪奖励函数形式为：
$\hat{R}_\theta(y, x) = \min \left( \left( \frac{p_x(y)}{\pi_\theta(y|x)} \right)^{1-\alpha} - 1, M \right)$
其中 $M$ 是用于控制方差的截断值。

2.3 理论联系

论文证明了当 $\beta \to 0$ 时，RLVR 优化的目标分布收敛于 DMVR 定义的理想分布。
揭示了 RLVR 之所以导致多样性丧失，是因为其优化的是反向 KL，而非目标分布本身的问题。

3. 实验设置 (Experiments)

基准任务： Lean 定理证明。这是一个形式化数学领域，要求模型不仅生成正确的证明，还需要在搜索空间中进行多样化探索，因为某些定理可能只有通过罕见的推导路径才能解决。
基座模型： DeepSeek-Prover-V1.5-SFT (7B 参数)。
数据集： 从 Lean Workbook 中提取的 10,000 个可解问题，其中 200 个作为测试集。
对比基线：
- 传统 RL 方法：GRPO, PPO, RLOO, ReMax, GPG。
- 多样性保持方法：High-KL (强 KL 惩罚), Rw-Ulkly (排名偏差), Pass@k 训练。
- 分布匹配方法：KL-DPG (前向 KL)。

4. 主要结果 (Results)

4.1 精度 - 覆盖率帕累托前沿 (Pareto Frontier)

实验结果展示了模型在 Pass@1 (精度) 和 Pass@256 (覆盖率) 之间的权衡。
$\alpha$ -DPG 模型 几乎完全落在帕累托前沿上，证明了该方法能灵活控制精度与多样性的平衡。
低 $\alpha$ 值 (如 0.25)： 在保持精度显著优于基座模型（SFT）的同时，实现了最高的覆盖率，超越了所有其他基线方法（包括 Pass@256 指标）。
高 $\alpha$ 值 (如 0.999)： 在精度上达到了与 GRPO 等强 RL 方法相当甚至更优的水平，同时通常保留了更高的覆盖率。

4.2 难度迁移分析

GRPO / 高 $\alpha$ -DPG： 倾向于将中等难度的问题转化为“简单”问题（提高了解题效率），但代价是将部分原本可解的“困难”问题变成了“无解”（多样性丧失导致无法覆盖稀有解）。
低 $\alpha$ -DPG (如 0.25)： 表现更为保守，虽然将更多问题转化为“简单”的数量较少，但极少将原本可解的困难问题变为无解，更好地保留了基座模型的解题能力。

4.3 多样性分析

通过计算证明过程中的**策略（Tactics）和前提（Premises）**的香农熵（Shannon Entropy）和辛普森指数（Simpson Index），发现：
- 高多样性（低 $\alpha$ ）与高 Pass@256 呈正相关。
- 高多样性与低 Pass@1 呈负相关（符合预期，因为分散了概率质量）。
- 困惑度（Perplexity）分析显示， $\alpha$ -DPG 生成的序列在基座模型下依然具有高概率，说明模型并未“遗忘”基座知识，而是重新加权。

5. 主要贡献 (Key Contributions)

提出 DMVR 框架： 将基于验证器的微调重新定义为分布匹配问题，显式定义了保留多样性的目标分布。
理论洞察： 阐明了 RL 方法多样性丧失的根源在于隐式优化的“反向 KL"散度的“寻找模式”特性，而非目标分布本身。
提出 $\alpha$ -DPG： 利用 $\alpha$ -散度族统一了前向 KL（多样性优先）和反向 KL（精度优先），提供了一个可调节的连续谱系来平衡精度与覆盖率。
SOTA 性能： 在 Lean 定理证明基准上， $\alpha$ -DPG 在覆盖率（Pass@256）指标上超越了所有现有方法，同时保持了极高的精度，成功构建了精度 - 覆盖率的帕累托前沿。

6. 意义与影响 (Significance)

重新审视 RL 在推理中的作用： 论文挑战了"RL 能创造新技能”的观点，指出 RL 更多是对基座模型已有能力的重新加权（Reweighting）和放大。如果优化目标不当（如仅优化反向 KL），模型会遗忘基座模型中原本存在的正确解。
解决多样性坍塌： 为 LLM 推理任务中普遍存在的多样性下降问题提供了解决方案。在需要探索多种解法（如数学证明、创意写作、代码生成）的场景中，保持多样性至关重要。
通用性潜力： 虽然实验主要在 Lean 上进行，但 DMVR 框架和 $\alpha$ -DPG 方法理论上适用于任何具有可验证奖励的生成任务，为未来的模型对齐和推理优化提供了新的方向。
伦理与透明度： 通过显式定义目标分布，使得模型优化的目标更加透明和可控，有助于提升模型行为的可解释性和问责制。

总结： 这篇论文通过数学上的严谨推导和实验验证，证明了通过控制散度类型（ $\alpha$ -DPG）可以在不牺牲精度的前提下显著提升 LLM 的推理多样性，为构建更强大、更稳健的推理模型提供了新的范式。

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

1. 背景：传统的训练方法出了什么问题？

2. 核心观点：只要“剩下的”都是对的

3. 新方法：α\alphaα-DPG（智能的“过滤器”）

4. 实验结果：在 Lean 定理证明器上的表现

5. 总结：为什么这很重要？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 显式目标分布

2.2 α\alphaα-DPG 算法

2.3 理论联系

3. 实验设置 (Experiments)

4. 主要结果 (Results)

4.1 精度 - 覆盖率帕累托前沿 (Pareto Frontier)

4.2 难度迁移分析

4.3 多样性分析

5. 主要贡献 (Key Contributions)

6. 意义与影响 (Significance)

类似论文

The Quantification Horizon Theory of Consciousness

Algebras of actions in an agent's representations of the world

Heuristic Multiobjective Discrete Optimization using Restricted Decision Diagrams

PLM-Net: Perception Latency Mitigation Network for Vision-Based Lateral Control of Autonomous Vehicles

Automated Explanation Selection for Scientific Discovery

3. 新方法： $\alpha$ -DPG（智能的“过滤器”）

2.2 $\alpha$ -DPG 算法