Post-Training with Policy Gradients: Optimality and the Base Model Barrier

该论文研究了基于策略梯度的后训练方法,证明了在基础模型具备非平凡似然时,该方法能以最优样本复杂度提升性能,但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍,而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。

Alireza Mousavi-Hosseini, Murat A. Erdogdu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能(特别是大语言模型)非常核心且有趣的问题:当我们给一个已经训练好的 AI 模型进行“课后辅导”(后训练)时,它到底能学多少新东西?它的上限在哪里?

为了让你轻松理解,我们可以把整个研究过程想象成**“教一个已经读过很多书的学生(基座模型)去解决从未见过的难题”**。

1. 核心场景:两种“老师”的教法

论文主要比较了两种给 AI 提供反馈(奖励)的方式,就像两种不同的老师:

  • 结局奖励模型 (Outcome Reward, ORM):

    • 比喻: 就像**“只给最终分数的老师”**。学生做完一整道数学题(生成一段长回答),老师只看最后的答案对不对。如果对了给满分,错了给零分,中间过程完全不看。
    • 问题: 如果学生一开始完全不会做(基座模型对这个问题的概率几乎为 0),老师只给个“零分”,学生根本不知道错在哪一步,怎么改?这就好比在茫茫大海里找一根针,学生只能盲目乱猜,效率极低。
  • 过程奖励模型 (Process Reward, PRM):

    • 比喻: 就像**“步步为营的教练”**。学生写一步,教练就检查一步。如果第一步写对了,教练说“好,继续”;如果第二步写错了,教练立刻指出“这里错了”。
    • 优势: 即使学生一开始完全不会,只要教练能指出每一步的对错,学生就能一步步修正,最终学会解题。

2. 核心发现:基座模型的“天花板”

论文发现了一个令人惊讶的**“基座模型障碍” (Base Model Barrier)**:

  • 如果学生本来就会一点(在基座模型的“支持范围”内):
    使用“结局奖励”(只给最终分),学生可以很快通过试错学会把答案改得更好。这就像学生本来就会做 80 分的题,老师告诉他“这次 90 分,下次争取 95 分”,他很容易就能进步。

    • 结论: 只要基座模型对某个问题有一点点把握,策略梯度算法(一种优化方法)就能高效地把它提升到接近完美。
  • 如果学生完全不会(在基座模型的“支持范围”外):
    这是论文的最大痛点。如果学生面对一个完全陌生的问题,基座模型猜对的概率几乎为零(比如 $10^{-100}$),这时候只用“结局奖励”是行不通的

    • 比喻: 想象你要在一个有 $10^{100}个房间的迷宫里找出口。如果你每次进去乱走,只有走到出口才给你奖励,那你可能需要走 个房间的迷宫里找出口。如果你每次进去乱走,只有走到出口才给你奖励,那你可能需要走 10^{100}$ 次才能找到一次。这在计算机上意味着需要的时间比宇宙寿命还长
    • 结论: 无论你怎么优化算法,只要只给最终答案的反馈,想要学会基座模型完全没见过的东西,所需的尝试次数是指数级爆炸的。这是物理定律般的限制,不是算法不够聪明。

3. 破局之道:过程奖励的魔力

论文提出,要打破这个“天花板”,必须使用**“过程奖励” (Process Reward)**。

  • 比喻: 回到那个迷宫。如果“教练”能告诉你“你往左走是死路,往右走是对的”,哪怕你一开始在迷宫里完全迷路,只要教练能一步步指引,你就能走出迷宫。
  • 数学上的突破: 使用过程奖励,所需的尝试次数从“指数级爆炸”(kNk^N,其中 NN 是问题长度)变成了**“线性增长”**(NN)。
    • 这意味着,对于长序列任务(比如写长代码、做复杂推理),过程奖励让 AI 能够真正学会基座模型原本完全不会的东西,而不会陷入死循环。

4. 论文的其他贡献(简单版)

  • 关于“自适应学习率”: 论文还证明了,就像学生做题时,如果知道哪道题难就多花点时间(自适应调整学习率),比死板地每道题花一样时间(固定学习率)要高效得多。这在统计学习和在线学习中都是最优的。
  • 关于“预训练”的极限: 论文还证明了,如果预训练(上学)阶段样本不够多,基座模型对某些问题的掌握程度(似然分位数)就是很差的。这时候,后训练(补习)无论怎么努力,都很难突破这个基础。除非补习时能像“过程奖励”那样,把大问题拆解成小步骤来学。

总结:这对我们意味着什么?

这篇论文用严谨的数学告诉我们:

  1. AI 不是万能的: 如果让 AI 去解决它完全没接触过、且没有中间反馈的问题,它可能永远学不会。
  2. 过程反馈至关重要: 要想让 AI 真正“举一反三”,学会新领域的复杂推理(比如数学证明、代码生成),不能只靠最后给个对错,必须像人类老师一样,在每一步都给予反馈
  3. 未来的方向: 研究如何高效地生成“过程奖励”(比如自动判断每一步代码是否正确),是突破当前大模型能力瓶颈的关键。

一句话总结:
想教 AI 学新东西,如果它完全不懂,只给最终结果(结局奖励)是徒劳的;必须像教小孩走路一样,每一步都扶着走(过程奖励),它才能真正学会。