TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

本文针对 DeepSeek 提出的无评论员强化学习算法 GRPO,通过理论分析揭示其梯度估计偏差并验证简化变体的有效性,进而提出了轨迹级重要性校正的 TIC-GRPO 算法,该算法在保持无评论员结构的同时实现了更快的收敛速度,并在数学推理和代码任务中展现出优越性能。

Lei Pang, Jun Luo, Ruinan Jin

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 TIC-GRPO 的新算法,旨在让大型语言模型(LLM)通过“人类反馈”学得更好、更快、更稳。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生(AI)参加数学竞赛

1. 背景:现在的教学方法(GRPO)

以前,DeepSeek 提出了一种叫 GRPO 的方法,它比传统的“老师 + 助教”模式(PPO 算法)更省钱、更高效。

  • 传统模式 (PPO):学生做题,老师给分,还需要一个专门的“助教”(Critic)来实时评估学生每一步做得对不对。这很费资源。
  • GRPO 模式:不需要助教。老师把同一个题目给同一个学生做 8 次(生成 8 个答案),然后直接把这 8 个答案排个队:做得最好的给奖励,最差的给惩罚。

但是,GRPO 有个小毛病:
它在学习时,有点像“刻舟求剑”。

  • 比喻:学生每做几道题,老师就会更新一次自己的“评分标准”(旧策略 πold\pi_{old})。但在更新之前,老师会拿着旧的评分标准去评价学生现在做的题。
  • 问题:如果学生进步很快,用旧标准去评价新答案,虽然大体方向没错,但会有“偏差”。这就好比你用去年的地图找今年的路,虽然不会完全走错,但不够精准。

2. 核心发现:其实“旧地图”也没那么坏

论文作者做了一个有趣的实验(消融研究):
他们干脆扔掉了那个用来修正偏差的复杂计算(重要性采样),直接拿着“旧地图”一直教,直到老师更新标准为止。

  • 结果:令人惊讶的是,学生学出来的效果,和用复杂方法算出来的几乎一样好
  • 结论:只要更新得够快,旧地图和新地图差别不大,偏差可以忽略不计。

3. 新方案:TIC-GRPO(更聪明的老师)

既然“旧地图”偏差小,那能不能直接把它修得更准、更稳呢?作者提出了 TIC-GRPO,做了两个关键改进:

改进一:从“逐字批改”变成“整卷打分” (轨迹级重要性修正)

  • 旧做法 (Token-level):老师像改作文一样,逐个字(Token)去对比新旧标准。比如学生把“苹果”写成了“梨”,老师会纠结这个词的权重。这很繁琐,而且容易因为某个词的微小波动导致分数大起大落。
  • 新做法 (Trajectory-level):老师直接看整张卷子(整个回答序列)。
    • 比喻:不再纠结“苹果”和“梨”哪个词分高,而是直接看“这道题整体答得对不对”。
    • 好处:这就像把分散的珍珠串成了一条项链,直接评估项链的价值。这样算出来的梯度(学习方向)更精准,直接对准了“当前学生”的水平,消除了之前的“旧地图偏差”。

改进二:只剪“过高的枝丫” (仅向上截断/Up-Only Clipping)

  • 旧做法:为了防止学生“飘”,老师会限制分数的上下浮动(双向截断)。但在某些情况下(比如学生答案很差,但运气好得了高分),这种限制可能不够用,导致分数波动太大,训练不稳定。
  • 新做法:作者发现,最危险的是那些意外获得超高奖励的情况(方差过大)。所以,新算法只限制过高的分数(向上截断),就像给风筝线加个上限,防止风筝飞太高断线,但允许它低飞。
    • 好处:训练过程更稳,不会因为偶尔的“运气好”导致模型学偏。

4. 理论证明:为什么它更快?

论文不仅做了实验,还给出了数学证明(收敛性分析)。

  • 比喻:这就好比证明了新老师教学生,不仅教得对,而且收敛得更快(学生能更快达到高分水平)。
  • 数学上证明了,TIC-GRPO 的误差随着训练步数减少的速度,比原来的 GRPO 和中间版本都要快。这意味着用同样的时间,它能学到更多东西。

5. 实验结果:实战表现

作者在数学推理(AIME)和编程(LiveCodeBench)任务上测试了 TIC-GRPO:

  • 结果:无论是 17 亿参数的小模型,还是 80 亿参数的大模型,TIC-GRPO 都比原来的 GRPO 和另一个强力对手 GSPO 表现更好。
  • 表现:准确率更高,而且收敛曲线更陡峭(学得更快)。

总结

这篇论文就像是在说:

“我们以前教 AI 时,总是小心翼翼地用旧标准去修正新答案,虽然有效但有点笨重。现在我们发现,与其纠结每个字的偏差,不如直接看整篇回答的‘大局’,并且只给那些‘运气太好’的分数设个上限。这样,AI 学得更准、更稳、更快。”

TIC-GRPO 就是这样一个让 AI 训练更高效、更可靠的“新教学法”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →