Soft Sequence Policy Optimization

本文提出了一种名为软序列策略优化(SSPO)的新型离线强化学习目标,通过在序列级重要性权重中引入基于软门控函数的令牌级概率比率,有效提升了数学推理任务中的训练稳定性与性能。

Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“软序列策略优化”(Soft Sequence Policy Optimization,简称 SSPO)**的新方法。它的目的是让大型语言模型(LLM,比如现在的 AI 聊天机器人)在自我学习变得更聪明时,过程更稳定、效果更好。

为了让你轻松理解,我们可以把训练 AI 想象成**“教一个学生参加数学竞赛”**。

1. 背景:AI 是怎么学习的?

现在的 AI 学习通常分两步:

  1. 模仿学习:像背课本一样,看很多人类写的正确答案。
  2. 强化学习(RL):这是关键。AI 自己尝试解题,如果答对了,就给它奖励(比如发糖果);答错了,就批评。通过不断试错,AI 学会如何更好地解题。

在强化学习中,有一个叫 GRPO 的流行方法。它的做法是:给同一个问题,让 AI 生成5 个不同的答案(就像让 5 个学生做同一道题)。然后比较这 5 个答案,谁答得好,就给谁发糖果,谁答得差,就让它“反思”。

2. 遇到的问题:旧方法的“硬伤”

虽然 GRPO 很有效,但在大规模训练时,它有两个主要麻烦,就像**“严厉的老师”“混乱的评分”**:

  • 问题一:过度严厉的“硬剪辑”(Hard Clipping)
    当 AI 生成的答案和它之前学的差别太大时,旧方法会直接**“一刀切”**,把那些差异巨大的部分直接砍掉,不让它们参与学习。

    • 比喻:就像老师看到学生写了一个很新颖但有点冒险的解法,直接说:“太不一样了,不算数,重写!”
    • 后果:虽然这样很安全,但 AI 变得不敢创新,学得很慢,而且容易“死记硬背”,失去了探索新解法的能力(也就是论文里说的“熵崩溃”)。
  • 问题二:评分单位不匹配(Token vs. Sequence)
    旧方法在计算奖励时,是**逐字逐句(Token 级别)地看,但奖励却是给整道题(Sequence 级别)**的。

    • 比喻:这就好比老师给整篇作文打分(比如 90 分),但在修改时,却只盯着某一个标点符号说:“这个标点符号和上次不一样,我要把它砍掉!”
    • 后果:这种“只见树木,不见森林”的做法,会导致训练过程很不稳定,AI 容易学偏。

3. 新方案:SSPO(软序列策略优化)

这篇论文提出的 SSPO,就像是一位**“既懂大局又温柔”的导师**。它做了两个核心改进:

A. 从“逐字看”变成“看整篇”(序列级一致性)

SSPO 不再盯着每一个字去纠结,而是把整段回答看作一个整体。

  • 比喻:老师不再盯着那个标点符号说“你变了”,而是看整篇文章的逻辑。如果整篇文章逻辑通顺,哪怕中间有个词用得稍微不一样,老师也会说:“没关系,整体思路是对的,继续加油。”
  • 效果:这解决了“评分单位不匹配”的问题,让训练更稳定。

B. 用“软门”代替“硬剪刀”(软门控机制)

这是 SSPO 最聪明的地方。旧方法是用“硬剪刀”把差异大的部分直接剪掉。SSPO 则用了一个**“智能软门”**。

  • 比喻
    • 旧方法(硬剪辑):如果学生答案太离谱,直接关上门,把他拒之门外,完全不听他解释。
    • 新方法(SSPO 软门):如果学生答案有点离谱,门会慢慢关小,声音变小,但不会完全关死。老师会说:“这个想法有点太冒险了,我们稍微降低它的权重,但还是要听听你的思路。”
  • 效果
    1. 保留信号:即使是很冒险的答案,也能保留一点点学习信号,让 AI 知道“哦,这个方向虽然有点偏,但也不是完全没用”。
    2. 鼓励探索:AI 敢于尝试更多样化的解法,不会变得死板。
    3. 自动调节:这个“软门”的开关大小会根据情况自动调整(比如正向的奖励和负向的惩罚,门的开合程度不一样)。

4. 总结:SSPO 带来了什么?

简单来说,SSPO 就像给 AI 的训练过程加了一层**“智能减震器”**:

  1. 更稳:它把整段回答作为一个整体来评估,避免了因为几个字的不同而导致训练崩溃。
  2. 更聪明:它不再粗暴地砍掉“不一样”的答案,而是温柔地引导 AI 去探索,既保证了安全,又保留了创新的活力。
  3. 效果更好:作者在数学推理任务(比如做奥数题)上测试发现,用 SSPO 训练的 AI,学得更稳,解题能力也更强。

一句话总结:
以前的 AI 训练像是一个拿着大剪刀的严厉教官,剪掉所有不一样的地方,导致 AI 不敢创新;现在的 SSPO 像是一个温和且懂大局的导师,用“软门”引导 AI,既保证了方向正确,又鼓励 AI 大胆尝试,从而学得更快、更好。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →