Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

本文提出了一种名为 VIP 的基于方差信息的预测性分配策略,通过利用高斯过程模型预测提示词的成功概率并求解凸优化问题,动态分配在线强化学习中的推理预算以最小化策略更新的梯度方差,从而在多个基准测试中显著提升了采样效率和模型性能。

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma, Yuzhi Zhao, Ruifeng She, Viet Anh Nguyen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VIP(Variance-Informed Predictive allocation,即“基于方差感知的预测性分配”)的新方法,旨在让大语言模型(LLM)在通过“试错”学习时变得更聪明、更省钱。

为了让你轻松理解,我们可以把训练大模型想象成一位老师辅导一群学生做数学题

1. 背景:传统的“大锅饭”式教学(现有问题)

想象一下,老师有一堆数学题要让学生练习。为了让学生学会,老师会让每个学生针对每一道题都尝试做很多遍(在论文中称为"Rollouts",即“ rollout"或“采样”),比如每道题都让每个学生做 16 次,看看哪次做对了。

  • 现状:目前的算法(如 GRPO)就像是一个不懂变通的“平均主义”老师。不管题目是简单的"1+1=?”还是复杂的“量子力学推导”,老师都强制要求每个学生每道题都做 16 次。
  • 问题
    • 简单的题:学生可能做 1 次就全对了,剩下的 15 次纯属浪费时间和算力(就像让一个已经学会走路的孩子再走 15 遍,毫无意义)。
    • 难的题:学生做 16 次可能还是半懂不懂,需要更多次尝试才能找到规律,但老师只给了 16 次,导致学生学不会。
    • 结果:计算资源(算力/金钱)被大量浪费在简单的题目上,而真正需要学习的难题却“吃不饱”,导致整体学习效率低下。

2. 核心创新:VIP 老师的“因材施教”策略

这篇论文提出的 VIP 方法,就像是一位拥有“读心术”和“超级大脑”的精英老师。他不再搞“大锅饭”,而是根据每个学生的具体情况和题目的难度,动态分配练习次数。

第一步:预测“成功率”(像算命一样准)

VIP 老师手里有一个高斯过程模型(Gaussian Process),这就像是一个超级预测器

  • 它会根据学生过去的表现(做对还是做错)以及题目本身的特征(比如题目长什么样),预测学生下一次做对这道题的概率
  • 比喻:就像老师看一眼题目,再回想一下学生昨天的表现,就能猜出:“这道题小明做对的概率是 90%,而小红做对的概率只有 10%。”

第二步:计算“方差”(寻找最需要的地方)

VIP 老师不仅看概率,还看不确定性(方差)

  • 如果一道题学生做对的概率是 50%,那这道题的“不确定性”最大,也就是最有学习价值(因为多做几次,模型就能从“不知道”变成“知道”)。
  • 如果概率是 99% 或 1%,那不确定性很小,多做几次也没太大帮助。
  • 比喻:VIP 老师知道,把时间花在那些“半懂不懂”的题目上,进步最快;花在“全对”或“全错”的题目上,是浪费时间。

第三步:智能分配预算(把子弹用在刀刃上)

老师手里有一个固定的“练习总次数预算”(比如总共只能做 1000 次练习)。

  • VIP 老师会解一个数学优化题:如何把这 1000 次分配给不同的题目,才能让整体的学习效果最好(也就是让“梯度方差”最小,简单说就是让学习信号最清晰)。
  • 结果
    • 中等难度(概率在 50% 左右)的题目分配大量练习次数。
    • 非常简单极难(概率接近 0 或 1)的题目分配很少的练习次数。
    • 比喻:就像打仗时,把大部分弹药集中火力攻打敌人的薄弱环节,而不是浪费在已经攻下的阵地或无法攻克的堡垒上。

3. 为什么这很重要?(实际效果)

论文通过在数学推理和工具使用(比如让 AI 查资料)的测试中证明:

  • 更省钱:在同样的计算资源下,VIP 方法能学到更多东西。
  • 更强:用 VIP 训练的模型,在解决复杂数学题(如 AIME 竞赛题)和工具使用任务上,准确率比传统方法高出一大截。
  • 更聪明:特别是对于能力稍弱的模型(小参数模型),VIP 的“因材施教”效果最明显,能让它们迅速提升。

总结

这篇论文的核心思想就是:别再“一刀切”地让 AI 对所有问题都进行同样次数的尝试了。

VIP 就像是一个精明的资源管家,它利用数学预测,把有限的计算资源(算力)精准地投放在那些最能让模型进步的“中间地带”问题上。这不仅节省了昂贵的算力成本,还让 AI 学得更快、更好。

一句话概括:VIP 让 AI 训练从“盲目刷题”变成了“精准特训”,用更少的力气,练出更强的本事。