Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

该论文提出了一种在强化学习后训练中引入混合奖励的机制,通过结合稀疏任务奖励与引导模型遵循规范求解顺序的排序奖励,在无需修改监督数据或模型架构的情况下,显著提升了 Transformer 在随机化解决方案序列上的 Zebra 谜题求解性能。

Prakhar Gupta, Vaibhav Gupta

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何教 AI 更聪明地“思考”的有趣实验。我们可以把它想象成在训练一个解谜高手(比如玩“逻辑推理游戏”的 AI)。

为了让你轻松理解,我们把这篇论文的核心内容拆解成几个生动的场景:

1. 背景:AI 的“乱序”训练

想象一下,你正在教一个学生做“爱因斯坦斑马谜题”(一种需要逻辑推理的填字游戏)。

  • 传统做法:你给学生看标准答案,但答案里的步骤是随机打乱的。比如,标准答案应该是“先填 A,再填 B,最后填 C",但你给学生的资料却是“先填 C,再填 A,最后填 B"。
  • 结果:学生虽然能背下答案(知道最终填什么是对的),但他不知道解题的逻辑顺序。就像你背下了数学题的答案,但不知道先算哪一步、后算哪一步。

2. 问题:如何在不重新教他的情况下,让他学会“按顺序思考”?

作者们不想重新整理那堆乱糟糟的教材(因为那样太麻烦),他们想问:能不能在 AI 自己练习的时候,悄悄给它一点“暗示”,让它学会按正确的顺序出牌?

3. 实验方法:给 AI 两个“奖励信号”

作者给 AI 玩了一个强化学习游戏(就像训练小狗,做对了给骨头,做错了没奖励)。他们设计了两种“骨头”:

  • 骨头 A(任务奖励): 只有当 AI 把整个谜题完全解对时,才给一根大骨头。
    • 比喻: 就像考试只有满分才能拿奖学金。
  • 骨头 B(顺序奖励): 只要 AI 的解题步骤顺序跟标准解题大师的顺序差不多,就给一根小骨头。哪怕它最后没解对,只要步骤顺序对了,也有奖励。
    • 比喻: 就像厨师做菜,虽然菜还没出锅(没解对),但他切菜、洗菜、下锅的顺序是对的,厨师长也会夸他“手法专业”。

关键创新点(Bootstrap Mixed Rewards):
作者发现,如果直接把这两种骨头混在一起,AI 可能会因为“任务奖励”太大而忽略“顺序奖励”,或者反过来。
于是,他们发明了一个**“自动校准器”**(Bootstrapped Scaling):

  • 在训练开始前,先测一下 AI 目前大概能拿多少分。
  • 然后自动调整两种骨头的大小,让它们在起跑线上看起来“分量相当”
  • 这样,AI 就能公平地同时关注“做对题”和“按顺序做”这两件事。

4. 实验结果:一点点“顺序暗示”效果惊人

实验结果非常令人惊讶:

  • 只给“任务奖励”(只关心结果):AI 的解题正确率只有 32.6%
  • 混合奖励(99% 任务 + 1% 顺序):AI 的正确率飙升到了 36.3%

这意味着什么?
哪怕只给 AI 1% 的“顺序暗示”,它的表现就比只盯着结果要好得多!
这就好比你在教一个学生做题,虽然你主要让他追求满分,但你偶尔提醒一句:“嘿,记得先算括号里的哦”,这个小小的提醒就能让他整个解题思路更清晰,最终得分更高。

5. 核心结论:不需要重头教,只需“悄悄指路”

这篇论文告诉我们一个重要的道理:

  • 不需要把 AI 训练的数据全部重新整理成完美的顺序(这很费钱费力)。
  • 只需要在 AI 自己练习(强化学习)的时候,给它一个微弱的“顺序信号”
  • 这个信号就像是一个隐形的指南针,引导 AI 在解题时,不知不觉地模仿人类专家的思考路径(先做什么,后做什么)。

总结

这就好比你在教一个机器人下棋。你不需要把它的棋谱全部重写,只需要在它下棋时,偶尔给它一个小小的提示:“这一步通常应该先走马,再走炮”。哪怕这个提示只占你奖励的 1%,机器人也能因此学会更优雅的棋路,最终赢得更多比赛。

一句话概括:
给 AI 一点“按部就班”的微小奖励,就能让它从“死记硬背答案”进化为“懂得逻辑推理”,而且不需要重新整理教材。