Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

本文提出了 PSN-RLVR 方法,通过在参数空间引入噪声并结合截断重要性采样与自适应调度机制,有效克服了基于可验证奖励的强化学习在探索新策略方面的局限,显著提升了大语言模型在数学推理任务中的长程探索能力与大规模采样下的表现。

Bizhe Bai, Xinyue Wang, Peng Ye, Tao Chen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题:如何让大语言模型(LLM)在解决数学或逻辑难题时,不再只是“换个说法”重复旧答案,而是真正能“灵光一现”,想出全新的解题思路。

我们可以把这篇论文的核心思想比作**“给大脑换个‘性格’去探险”**。

1. 现状:大模型的“舒适区”困境

想象一下,你让一个很聪明的学生(大模型)做数学题。

  • 以前的做法(标准 RLVR): 老师(奖励机制)告诉学生:“你刚才那个解法是对的,下次多练练这种解法。”
  • 结果: 学生确实变聪明了,做题速度更快了,但他只是在重复以前学过的几种解法。如果题目稍微变个花样,或者需要一种他从来没见过的“脑洞”解法,他就卡住了。
  • 论文指出的问题: 现在的训练方法,就像是在重新排列学生脑子里已有的答案,而不是创造新答案。这就叫“探索天花板”——无论让他试多少次(采样预算再大),他也跳不出原来的思维圈子。

2. 核心方案:PSN-RLVR(参数空间噪声)

为了解决这个问题,作者提出了一种叫 PSN-RLVR 的新方法。

🌟 核心比喻:给大脑“微调”一下性格

  • 旧方法(动作空间噪声): 就像让学生在做题时,随机乱写几个字(比如把“加号”写成“减号”,或者随机跳过一个步骤)。
    • 缺点: 这种随机是断断续续的。这一步乱写,那一步又乱写,导致整个解题思路(Chain of Thought)变得支离破碎,逻辑不通,最后算出个荒谬的答案。
  • 新方法(参数空间噪声 PSN): 作者不让学生乱写字,而是在解题前,悄悄给学生的“大脑结构”加一点点微小的扰动(比如稍微改变一下神经网络的权重)。
    • 效果: 这就像给同一个学生换了一种**“性格”“视角”**。
      • 在这个“性格”下,他可能会觉得:“哎,这道题用代数解太麻烦,不如试试几何法?”
      • 一旦这个“性格”确定了,他在整个解题过程中都会保持这种独特的视角,从头到尾逻辑连贯。
    • 好处: 这种**“全程一致”**的探索,更容易发现那些原本被忽略的、全新的解题路径。

3. 两个关键“补丁”

为了让这个方法既有效又稳定,作者还加了两个聪明的“补丁”:

A. 截断重要性采样 (TIS) —— “翻译官”

  • 问题: 因为学生是用“新性格”(扰动后的参数)做的题,但我们要训练的是“原性格”(原始模型)。这就像是用一种方言写的日记,却要教普通话的老师,直接教会有偏差。
  • 解决: 作者加了一个“翻译官”(TIS)。它负责把“新性格”做出来的题,修正一下,让“原性格”能正确理解并学习其中的价值,同时防止因为性格差异太大导致学习崩溃。

B. 实时自适应噪声调度 —— “智能调音师”

  • 问题: 给大脑加多少“扰动”是个技术活。加少了没效果,加多了脑子就乱了。以前需要很复杂的计算来调整,太慢。
  • 解决: 作者设计了一个**“智能调音师”**。
    • 它会实时观察:学生现在的解题思路是不是太单一了?(语义多样性低)学生是不是太自信了?(自确信度高)
    • 如果学生太“固执”或太“自信”,调音师就加大一点扰动,逼他换个角度想;如果学生已经有点乱了,就减小扰动,让他稳一点。
    • 这个方法非常快,不需要额外的昂贵计算。

4. 实验结果:真的有用吗?

作者在各种高难度的数学竞赛题(如 AIME, Olympiad)上测试了这种方法:

  • 小样本时(只试几次): 效果和普通方法差不多,甚至因为要探索,偶尔会慢一点。
  • 大样本时(试很多次,比如 256 次): 效果炸裂! 普通方法可能只能找到 60% 的正确答案,而 PSN 方法能找到 80% 甚至更多。
  • 关键发现: 它真的找到了以前从未出现过的解题思路(比如某些复杂的组合计数问题),而不是简单的重复。

总结

这篇论文就像是在教大模型**“如何跳出舒适区”**。

以前的训练像是在**“练肌肉”(让已有的动作更熟练),而这篇论文的方法是“换大脑”**(通过微调内部参数,让模型在保持逻辑连贯的前提下,尝试全新的思维模式)。

一句话概括:
通过给模型的“大脑结构”加一点连贯的、可控的随机扰动,并配合智能的“调音师”和“翻译官”,让大模型在面对难题时,不仅能做得更快,更能想得更深、更广,真正突破能力的边界。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →