Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题：如何让大语言模型（LLM）在解决数学或逻辑难题时，不再只是“换个说法”重复旧答案，而是真正能“灵光一现”，想出全新的解题思路。

我们可以把这篇论文的核心思想比作**“给大脑换个‘性格’去探险”**。

1. 现状：大模型的“舒适区”困境

想象一下，你让一个很聪明的学生（大模型）做数学题。

以前的做法（标准 RLVR）： 老师（奖励机制）告诉学生：“你刚才那个解法是对的，下次多练练这种解法。”
结果： 学生确实变聪明了，做题速度更快了，但他只是在重复以前学过的几种解法。如果题目稍微变个花样，或者需要一种他从来没见过的“脑洞”解法，他就卡住了。
论文指出的问题： 现在的训练方法，就像是在重新排列学生脑子里已有的答案，而不是创造新答案。这就叫“探索天花板”——无论让他试多少次（采样预算再大），他也跳不出原来的思维圈子。

2. 核心方案：PSN-RLVR（参数空间噪声）

为了解决这个问题，作者提出了一种叫 PSN-RLVR 的新方法。

🌟 核心比喻：给大脑“微调”一下性格

旧方法（动作空间噪声）： 就像让学生在做题时，随机乱写几个字（比如把“加号”写成“减号”，或者随机跳过一个步骤）。
- 缺点： 这种随机是断断续续的。这一步乱写，那一步又乱写，导致整个解题思路（Chain of Thought）变得支离破碎，逻辑不通，最后算出个荒谬的答案。
新方法（参数空间噪声 PSN）： 作者不让学生乱写字，而是在解题前，悄悄给学生的“大脑结构”加一点点微小的扰动（比如稍微改变一下神经网络的权重）。
- 效果： 这就像给同一个学生换了一种**“性格”或“视角”**。
  - 在这个“性格”下，他可能会觉得：“哎，这道题用代数解太麻烦，不如试试几何法？”
  - 一旦这个“性格”确定了，他在整个解题过程中都会保持这种独特的视角，从头到尾逻辑连贯。
- 好处： 这种**“全程一致”**的探索，更容易发现那些原本被忽略的、全新的解题路径。

3. 两个关键“补丁”

为了让这个方法既有效又稳定，作者还加了两个聪明的“补丁”：

A. 截断重要性采样 (TIS) —— “翻译官”

问题： 因为学生是用“新性格”（扰动后的参数）做的题，但我们要训练的是“原性格”（原始模型）。这就像是用一种方言写的日记，却要教普通话的老师，直接教会有偏差。
解决： 作者加了一个“翻译官”（TIS）。它负责把“新性格”做出来的题，修正一下，让“原性格”能正确理解并学习其中的价值，同时防止因为性格差异太大导致学习崩溃。

B. 实时自适应噪声调度 —— “智能调音师”

问题： 给大脑加多少“扰动”是个技术活。加少了没效果，加多了脑子就乱了。以前需要很复杂的计算来调整，太慢。
解决： 作者设计了一个**“智能调音师”**。
- 它会实时观察：学生现在的解题思路是不是太单一了？（语义多样性低）学生是不是太自信了？（自确信度高）
- 如果学生太“固执”或太“自信”，调音师就加大一点扰动，逼他换个角度想；如果学生已经有点乱了，就减小扰动，让他稳一点。
- 这个方法非常快，不需要额外的昂贵计算。

4. 实验结果：真的有用吗？

作者在各种高难度的数学竞赛题（如 AIME, Olympiad）上测试了这种方法：

小样本时（只试几次）： 效果和普通方法差不多，甚至因为要探索，偶尔会慢一点。
大样本时（试很多次，比如 256 次）： 效果炸裂！ 普通方法可能只能找到 60% 的正确答案，而 PSN 方法能找到 80% 甚至更多。
关键发现： 它真的找到了以前从未出现过的解题思路（比如某些复杂的组合计数问题），而不是简单的重复。

总结

这篇论文就像是在教大模型**“如何跳出舒适区”**。

以前的训练像是在**“练肌肉”（让已有的动作更熟练），而这篇论文的方法是“换大脑”**（通过微调内部参数，让模型在保持逻辑连贯的前提下，尝试全新的思维模式）。

一句话概括：
通过给模型的“大脑结构”加一点连贯的、可控的随机扰动，并配合智能的“调音师”和“翻译官”，让大模型在面对难题时，不仅能做得更快，更能想得更深、更广，真正突破能力的边界。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 PSN-RLVR（Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards）的新框架，旨在解决大语言模型（LLM）在可验证奖励强化学习（RLVR）中面临的**探索瓶颈（Exploration Ceiling）**问题。

以下是该论文的详细技术总结：

1. 研究背景与问题定义

背景：RLVR（如 DeepSeek-R1 使用的 GRPO 算法）通过在数学和代码等具有自动验证信号的领域优化策略，显著提升了 LLM 的推理能力。
核心问题：现有的 RLVR 方法存在“探索天花板”。
- 现象：RLVR 往往只是对预训练分布中已有的正确轨迹进行重加权（Reweighting），而不是发现全新的推理策略。
- 后果：在采样预算较大（如 Pass@256）时，性能提升有限。模型生成的轨迹缺乏语义多样性和操作多样性，导致无法探索那些初始策略下概率极低但可能包含更优解的推理空间区域。
- 现有方法的局限：
  - 动作空间扰动（Action-Space Noise）：如温度采样（Temperature Sampling），在 Token 级别引入噪声。但这会导致长程推理（Chain-of-Thought, CoT）中的逻辑不一致，因为 Token 级的噪声在时间步上是不相关的，容易累积成无结构的噪声，破坏全局连贯性。
  - 目标级正则化：如熵奖励或 Pass@k 优化，往往依赖代理信号，效果受任务难度影响大。
  - 数据增强：计算成本高或依赖外部信号。

2. 方法论：PSN-RLVR

为了解决上述问题，作者提出了 PSN-RLVR，其核心思想是在**参数空间（Parameter-Space）而非动作空间引入噪声，以诱导时间一致（Temporally Consistent）**的轨迹级探索。

2.1 核心机制

参数空间噪声（PSN）：
- 在生成 Rollout（采样轨迹）之前，对策略模型的参数 $\theta$ 添加高斯噪声： $\tilde{\theta} = \theta + \epsilon$ ，其中 $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ 。
- 关键特性：噪声 $\tilde{\theta}$ 在整个 Rollout 过程中保持不变。这意味着模型在生成整个推理链条时，始终遵循同一个“扰动后的策略”，从而保证了 CoT 推理的全局逻辑连贯性，避免了 Token 级噪声导致的逻辑漂移。
截断重要性采样（Truncated Importance Sampling, TIS）：
- 挑战：由于 Rollout 是由扰动策略 $\pi_{\tilde{\theta}}$ 生成的，但模型更新是针对干净策略 $\pi_{\theta}$ 的，这导致了 Off-policy 分布不匹配。
- 解决方案：在 GRPO 的目标函数中引入重要性比率 $w_t$ ，并对其进行截断（Clipping）以防止方差过大：
  $w_t := \min\left(\frac{\pi_{\theta}(a_t)}{\pi_{\tilde{\theta}}(a_t)}, C\right)$
  这确保了利用探索数据的同时保持训练稳定性。

2.2 自适应噪声调度（Adaptive Noise Scheduling）

为了平衡探索（Exploration）与利用（Exploitation），并避免昂贵的 KL 散度计算，作者提出了一种轻量级实时自适应噪声调度器：

动机：传统的基于 KL 散度的反馈调整存在滞后性，且计算成本高。
代理指标：利用两个探针生成（Probe Rollouts）来实时估计当前模型的探索需求：
1. 语义多样性（Semantic Diversity）：计算两个探针生成的文本嵌入之间的余弦相似度。相似度越高，说明模型陷入局部最优，需要更大的噪声。
2. 自确定性（Self-Certainty）：计算模型预测分布与均匀分布之间的 KL 散度。确定性越高（分布越尖锐），说明模型过于自信，需要更多探索。
更新规则：结合上述指标构建复合指示器 $Ind_t$ ，动态调整噪声尺度 $\sigma$ 。如果模型过于自信且输出相似，则增加噪声；反之则减小。

2.3 噪声注入位置

实验表明，将噪声仅注入 MLP 层（而非整个 Transformer 或 LM Head）能获得最佳的探索与稳定性平衡，特别是在高采样预算下。

3. 主要贡献

PSN-RLVR 框架：首次系统性地研究了 RLVR 中的参数空间噪声，证明了其能诱导时间一致的轨迹级探索，突破 Pass@k 的性能上限。
解决特定挑战的模块：
- 引入 TIS 解决参数扰动带来的 Off-policy 偏差。
- 提出 实时自适应噪声调度器，利用语义多样性和自确定性替代昂贵的 KL 控制，实现了计算高效的动态调整。
全面的探索空间分析：通过大量实验回答了噪声注入位置、噪声幅度缩放、不同模型家族的泛化性以及与现有方法的正交性等问题。

4. 实验结果

实验基于 GRPO 算法，在 Qwen2.5-Math-7B 和 Qwen3-4B 等模型上，针对 AIME、AMC、OlympiadBench 等数学推理基准进行测试。

性能提升（Pass@k）：
- 在大采样预算（如 Pass@128, Pass@256）下，PSN-GRPO 显著优于标准 GRPO 和其他探索方法（如 Pass@k 训练、RLVR-Decomposed）。
- 例如，在 AIME 2024 上，Pass@256 提升了约 8.9%（相对于最佳温度缩放基线）。
- 在 Pass@1（低预算）上，PSN 可能会略微下降，体现了探索与利用的权衡，但通过自适应调度可缓解。
多样性提升：
- PSN 生成的轨迹具有显著更高的语义多样性和操作多样性（Unique Ops），证明了其发现了新的推理模式，而非仅仅重加权旧轨迹。
对比动作空间噪声：
- 在长序列推理任务（如 AIME 24，平均长度~2000 tokens）中，PSN 的表现远优于训练时或推理时的温度缩放（Action-Space Noise），后者因逻辑漂移导致性能急剧下降。
正交性：
- PSN 与 Pass@k 训练等其他策略是正交的，组合使用（PSN-GRPO-pass@K）能带来额外的性能增益（Pass@256 从 76.37% 提升至 79.12%）。

5. 结论与意义

理论意义：证明了在 RLVR 中，通过扰动参数而非 Token，可以维持长程推理的连贯性，从而有效探索复杂的推理空间。
实践价值：提供了一种低成本、高效率的方法，能够显著提升 LLM 在数学、代码等可验证领域的“高预算”推理能力（即通过多次采样找到正确答案的能力）。
局限性：对于短序列任务，Token 级噪声可能已足够，PSN 的增益可能递减。

总结：PSN-RLVR 通过参数空间噪声和智能的自适应调度，成功打破了当前 RLVR 模型的探索瓶颈，使得模型能够发现以前无法触及的推理策略，特别是在需要长程逻辑一致性的复杂任务中表现卓越。