Variational Proximal Policy Optimization

本文介绍了变分近端策略优化(\textscVP2\textscO\textsc{VP}_2\textsc{O}),这是一种基于粒子的变分推理框架,它将 Stein 变分梯度下降与专家混合架构相结合,以缓解策略模式崩塌和分布漂移问题,并在推理基准测试和 Token 效率方面取得了显著的性能提升。

原作者: Ousmane Amadou Dia

发布于 2026-06-09✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Ousmane Amadou Dia

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在试图教一个巨大的、超级聪明的机器人如何编写代码、解决数学问题,或者以人类真正喜欢的方式进行聊天。标准的训练方法(被称为 PPOGRPO)有点像一位严厉的教练,它会说:“照着上次成功的方法去做,但不要改变太多,否则我就把你踢出局。”

虽然这种方法行之有效,但论文指出它存在三个大问题:

  1. “单一模式”问题(The "One-Note" Problem): 机器人会陷入重复做同样几件事的死循环,因为这些做法曾获得过高分,从而错失了用其他更具创造性的方式解决问题的机会。
  2. “脆弱”问题(The "Brittle" Problem): 如果机器人尝试探索新想法,它往往会变得混乱或崩溃,因为关于“允许改变多少”的规则过于僵化且武断。
  3. “漂移”问题(The "Drift" Problem): 机器人会慢慢忘记自己应该如何表现,并开始通过“钻空子”来获取高分,而不是真正提供帮助。

新的解决方案:VP2O (变分近端策略优化)

作者提出了一种名为 VP2O 的新方法。为了理解它,我们使用以下类比。

1. “专业团队” vs. “全才”

与其训练一个巨大的大脑来做所有事情,这篇论文使用了 混合专家模型 (Mixture-of-Experts, MoE)。想象这是一个由 20 位不同领域的专家组成的团队,他们坐在一间办公室里。

  • 旧方法: 管理员(路由)为每项任务挑选一名专家,而所有的专家都试图变成同一个“完美专家”。最终,他们都会开始思考得一模一样,导致团队失去了创造力。
  • VP2O 方式: 管理员为每个任务挑选一小组专家。VP2O 将每位专家视为一个独特的“粒子”或个体。目标不是让他们都变得相同,而是让他们在各自擅长的领域内既优秀各具特色

2. “磁性舞池” (Stein Variational Gradient Descent)

这是论文的核心魔力。想象这 20 位专家是舞池上的舞者。

  • 吸引力(磁性): 舞池中有一个“高奖励”区域(即最佳答案所在处)。舞者们被磁力吸引向这个区域。
  • 排斥力(个人空间): 在旧方法中,舞者们会挤在同一个点上,互相绊倒(这被称为“模式崩塌”)。VP2O 增加了一条规则:“如果你离别人太近,你就必须推开对方。”
  • 结果: 舞者们在整个高奖励区域内散开。他们覆盖了更广的范围,找到了解决问题的许多种不同方式(比如编写代码),而不仅仅是寻找一种“完美”的方式。

3. “聪明教练” vs. “裁剪规则”

在旧方法中,教练使用一种“裁剪”规则:“如果你改变舞步超过 10%,我就停止你。”这是一种粗暴的手段。

  • VP2O 的方法: VP2O 没有采用硬性停止,而是使用了几何学。它观察舞者动作的“形状”。它会说:“你可以随心所欲地移动,只要你保持在相对于起点所形成的特定几何形状之内。”
  • 这使得运动更加自然、流畅。机器人可以探索新想法而不会破坏规则,因为规则是基于学习过程本身的几何形状,而非一个武断的数字。

4. “正交”目标

为了确保专家们不会互相抄袭,VP2O 增加了一条名为“正交化”的规则。

  • 类比: 想象要求两位专家解决一道数学题。如果他们使用完全相同的方法,那就是低效的。VP2O 强制要求他们使用不同的方法(比如一个用代数,另一个用几何),这确保了团队拥有应对任何问题的多样化工具箱。

尝试之后的结果如何?

作者在一个拥有 330 亿参数、包含 20 个专家的庞大模型上进行了测试。以下是他们的发现:

  • 编程能力 (Codeforces): 这是最大的胜利。新方法将机器人的编程得分提高了 179 分(这是一个巨大的飞跃)。机器人不仅变得更强,还找到了解决代码问题更多样化的方式。
  • 数学能力 (AIME): 机器人正确解决了更多的数学题。有趣的是,尽管它在“思考”(生成内部推理)上花费了更多时间,但它在解释最终答案时使用的词汇量更少。它变得更高效了。
  • 指令遵循能力: 机器人能够更好地遵循复杂的指令,这可能是因为它不再受困于“一刀切”的常规套路。

核心结论

论文声称,通过将 AI 的“大脑”视为一群被鼓励保持差异化(利用磁性排斥,而非趋同)的多元化专家团队,AI 变得:

  1. 更有创造力(它能找到更多解决问题的方法)。
  2. 更稳定(它不会崩溃或陷入停滞)。
  3. 更高效(它能用更少的 Token 完成任务)。

作者强调,当 AI 需要撰写长篇、复杂的回答(例如 16,000 个 Token)时,这种方法效果最好,因为在这种情况下,拥有一支多样化的“专家”团队比拥有一种单一、僵化的策略更有价值。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →