Stabilizing Policy Optimization via Logits Convexity

该论文从梯度视角揭示了监督微调(SFT)相较于强化学习(RL)更稳定的原因在于其对数概率(logits)的凸性,并据此提出了一种名为“对数凸优化”(LCO)的新框架,通过模拟这种凸性效应显著提升了策略优化的稳定性与性能。

Hongzhan Chen, Tao Yang, Yuhua Zhu, Shiping Gao, Xiaojun Quan, Ting Yao

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大模型(LLM)训练中的核心痛点:为什么让大模型“自我进化”(强化学习 RL)比让它“死记硬背”(监督微调 SFT)要难控制得多?以及我们如何让它变得既稳定又高效。

为了让你轻松理解,我们可以把训练大模型想象成教一个学生(模型)解题

1. 核心问题:为什么“自学”容易走火入魔?

  • 监督微调 (SFT) = 老师手把手教
    老师直接告诉学生:“这道题的答案是 A。”

    • 过程:学生看答案,发现自己写错了,就调整思路。
    • 特点:目标非常明确,就像在平坦的滑梯上滑下去。无论怎么滑,方向都是对的,越滑越稳,最后一定能滑到底(收敛)。这就是论文里说的**“Logits 凸性”(Logits Convexity),简单说就是地形很平滑,不会迷路**。
  • 强化学习 (RL/PPO) = 让学生自己摸索
    老师不直接给答案,而是让学生自己猜,猜对了给糖(奖励),猜错了挨打(惩罚)。

    • 过程:学生为了多拿糖,可能会疯狂尝试各种奇怪的方法。
    • 问题:现在的强化学习算法(如 PPO)就像是在布满陷阱和悬崖的崎岖山路上走。
      • 有时候为了避开一个“小坑”(负奖励),学生可能会突然猛冲(梯度爆炸),结果直接掉进深渊(训练崩溃)。
      • 论文发现,PPO 算法在数学上缺乏那种“平滑地形”的保护,导致学生的情绪(梯度)忽高忽低,训练过程极不稳定,经常“练着练着就废了”。

2. 他们的发现:地形决定命运

作者通过数学分析发现,SFT 之所以稳,是因为它的“地形”是凸的(像碗底),无论怎么推,球都会滚向最低点。而 PPO 的地形是凹凸不平的,球滚着滚着可能会卡在奇怪的地方,或者因为推力太大直接飞出去。

核心结论:只要能让强化学习的“地形”变得像 SFT 一样平滑(具备凸性),训练就会变得超级稳定。

3. 他们的方案:LCO(凸优化策略)

作者提出了一个新的方法叫 LCO (Logits Convex Optimization)

  • 通俗比喻
    以前的强化学习是让学生“盲目试错”,然后看结果好坏。
    LCO 的做法是:先算出**“理论上完美的答案”**(最优目标),然后告诉学生:“别猜了,你就照着这个完美答案去调整你的思路。”

    这就像老师虽然不直接给答案,但给了学生一张**“标准解题地图”**。学生不再是盲目乱撞,而是沿着这张平滑的地图,一步步向完美答案靠近。

  • 具体做法
    他们把复杂的“奖励计算”转化成了简单的“目标对齐”问题。

    1. LCO-MSE / LCO-LCH:直接让学生去拟合那个“完美答案”的数值(就像做填空题,答案就在那,你填对就行)。
    2. LCO-KLD:让学生去模仿“完美答案”的概率分布(就像模仿大师的笔触)。

4. 效果如何?

  • 更稳:就像给过山车装了安全锁。在训练过程中,学生的“情绪”(梯度)不会突然失控,而是随着越来越接近正确答案,调整幅度自然变小,平稳落地。
  • 更强:因为不再在陷阱里浪费时间,学生学得更快,最终成绩(在数学推理、阅读理解等任务上)比传统的强化学习方法(如 PPO、GRPO)都要好。
  • 省样本:以前可能需要做 100 道题才能学会,现在可能做 30 道就学会了(样本效率更高)。

5. 总结

这篇论文就像给大模型的“自学模式”装上了导航仪和减震器

  • 以前:RL 训练像是在暴风雨里开船,容易翻船(不稳定),而且经常绕路(效率低)。
  • 现在 (LCO):通过引入“凸性”原理,把暴风雨变成了平静的运河。船(模型)不仅能开得更快、更稳,还能更精准地到达目的地(更强的能力)。

一句话总结:作者发现大模型自学不稳定的原因是“路太烂”,于是他们修了一条“平滑大道”(LCO),让模型既能保持自学的灵活性,又能像老师手把手教一样稳定高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →