V0.5V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

本文提出了V0.5V_{0.5}模型,通过实时统计检验动态融合通用价值模型先验与稀疏采样经验均值,在极低方差下构建鲁棒优势基线,从而在数学推理任务中显著超越 GRPO 和 DAPO 并实现更快的收敛。

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 V0.5 的新方法,旨在让大语言模型(LLM)在解决复杂数学问题时,能更聪明、更高效地“自我学习”。

为了让你轻松理解,我们可以把训练 AI 的过程想象成一位“学生”在参加一场高难度的数学竞赛

1. 核心难题:学生太笨,老师太贵,怎么教?

在传统的训练方法中,为了让模型变强,通常有两种路子,但都有大毛病:

  • 路子一:纯靠刷题(GRPO 方法)

    • 比喻:老师让学生做 16 道题,然后算出平均分,告诉学生:“你刚才做得比平均分好,就奖励你;比平均分差,就惩罚你。”
    • 问题:如果题目太难,学生只能做很少的题(比如只做 4 道),这 4 道题的分数波动会非常大。可能今天运气好全对,明天运气差全错。这种巨大的波动会让老师(算法)晕头转向,不知道学生到底是不是真的进步了,导致学习过程极不稳定。
    • 代价:为了减少波动,必须让学生做很多题(比如 16 道),但这太费时间、太费钱了(计算成本太高)。
  • 路子二:请个全能助教(PPO 方法)

    • 比喻:老师请了一个专门的“助教”(价值模型),这个助教能直接预测学生做某道题能得多少分。
    • 问题:这个助教需要和学生同步学习。学生每学一点,助教也得跟着重新学一遍,非常累(计算开销大)。而且,如果学生遇到以前没见过的怪题,助教可能会瞎猜(幻觉),给出错误的指导,把学生带偏。

2. V0.5 的绝招:聪明的“先验直觉” + “动态预算”

V0.5 提出了一种全新的策略,它结合了上述两者的优点,并解决了它们的缺点。我们可以把它想象成一位拥有“超级直觉”的教练,配合一套“智能考试系统”

第一步:利用“超级直觉”作为基准(Generalist Value Model as a Prior)

  • 比喻:教练手里有一本**“万能题库”**(这就是 V0.5 中的通用价值模型)。这本题库里记录了历史上无数学生做类似题目的表现。
  • 操作:在让学生做题之前,教练先翻翻题库,根据题目类型,直接给出一个“预测分数”(比如:“这道题你大概能拿 80 分”)。
  • 好处:这个预测是零成本的(不需要重新训练),而且非常稳定(方差为 0)。它就像是一个**“锚”**,防止学生因为偶尔的运气好或坏而心态崩了。

第二步:聪明的“融合”与“打假”(Empirical Shrinkage Fusion)

  • 比喻:教练不会盲目相信预测,也不会盲目相信学生只做的那几道题。他会玩一个**“加权游戏”**。
    • 如果学生做的几道题(比如 4 道)和教练的预测差不多,教练就会想:“看来预测很准,学生只是有点小波动。”于是,教练主要听预测的,把学生的波动“平滑”掉。
    • 如果学生做的几道题和预测差得离谱(比如预测 80 分,学生全做错了),教练就会警觉:“不对劲!是不是预测错了?或者是学生今天状态极差?”
  • 核心机制:V0.5 设计了一个**“实时打假测试”。如果学生的表现和预测偏差太大,超过了“正常运气”的范围,系统就会立刻抛弃预测**,完全相信学生实际做的题。这防止了教练被“瞎猜”带偏。

第三步:动态的“考试预算”(Sequential OSLA Allocation)

  • 比喻:这是 V0.5 最厉害的地方。传统的考试是**“死板”**的:不管题目难易,每道题都强制做 16 次。
  • V0.5 的做法:它像一个精明的考官
    • 情况 A(题目简单/预测准):学生做了 4 道题,表现和预测很吻合。考官心想:“稳了,没必要浪费资源了。”于是立刻停止,直接打分。
    • 情况 B(题目难/有争议):学生做了 4 道题,表现和预测打架,而且差距很大。考官心想:“这题有猫腻,或者预测错了,必须多测几次才能定论。”于是追加预算,让学生再做几道题,直到搞清楚真相为止。
  • 好处:简单题省资源,难题多给资源。既保证了准确性,又极大地节省了计算成本。

3. 最终效果:快、稳、准

通过这套组合拳,V0.5 实现了:

  1. 更稳:即使只让学生做很少的题(比如 4 道),因为有“预测锚”和“平滑处理”,学习过程也不会大起大落。
  2. 更快:因为简单题不需要做那么多遍,整体训练速度大幅提升。
  3. 更强:在 6 个高难度的数学竞赛基准测试中,V0.5 的表现比目前最先进的方法(GRPO 和 DAPO)都要好,准确率提升了10% 以上

总结

V0.5 就像是一个拥有“读心术”且“精打细算”的超级教练。

它不再死板地让学生重复刷题,而是先利用历史经验给出一个**“心理预期”。如果学生的表现符合预期,就少做题、快过关**;如果表现异常,就多做题、查真相。它巧妙地平衡了“相信经验”和“尊重事实”,用最小的代价换来了最稳定的进步。

这就是为什么它能在数学推理这种高难度任务中,用更少的计算资源,跑出更好的成绩。