Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

本文通过引入经典 U 统计量理论框架,揭示了群相对策略优化(GRPO)梯度的本质属性,推导了其收敛性与最优性理论界限,并确立了指导组大小选择的通用缩放定律。

Hongyi Zhou, Kai Ye, Erhan Xu, Jin Zhu, Ying Yang, Shijin Gong, Chengchun Shi

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在给大语言模型(LLM)的“超级大脑”训练方法——GRPO(组相对策略优化)——做一次彻底的“体检”和“理论解剖”。

为了让你轻松理解,我们可以把训练一个能像数学家一样思考的 AI,想象成训练一支“解题特训队”

1. 背景:AI 为什么要“特训”?

现在的 AI(大语言模型)很聪明,但让它做复杂的数学题或逻辑推理时,它容易“想当然”或者“瞎编”。

  • 以前的方法(RLHF):就像请一位人类教练来给 AI 打分。AI 写个答案,教练说“好”或“不好”。但这太慢了,而且教练(人类)很累,特别是面对成千上万道数学题时。
  • 现在的明星方法(GRPO):DeepSeek 等公司发现,不需要人类教练。只要让 AI 自己多生成几个答案,然后互相比较,就能知道哪个答案更好。这就叫“组相对策略优化”。

2. 核心问题:为什么“互相比较”这么有效?

虽然 GRPO 很火,但大家一直有个疑问:为什么让 AI 自己生成一组答案,然后拿平均值当“裁判”,效果就这么好?这背后的数学原理是什么?

这篇论文就是来回答这个问题的。作者们发现了一个惊人的数学秘密:GRPO 的核心算法,本质上是一种经典的统计学工具,叫做"U-统计量”(U-statistic)。

🧩 创意比喻:班级里的“小组互评”

想象你在教一群学生做数学题:

  • 传统方法(Vanilla/REINFORCE):老师随机叫一个学生回答,然后直接给分。如果这个学生今天状态不好,分给低了,老师就以为这题很难,或者学生很笨。这方差(波动)很大,很不稳定。
  • GRPO 方法:老师让一组学生(比如 64 人) 同时做同一道题。
    • 学生 A 做错了,学生 B 做对了,学生 C 做了一半……
    • 老师不看单个学生,而是看这一组的平均分
    • 如果学生 A 的答案比“小组平均分”好,就奖励他;如果比平均分差,就惩罚他。

论文的伟大发现
作者证明,这种“拿小组平均分做裁判”的方法,在数学上极其精妙。它就像是一个超级稳定的统计器

  • U-统计量就像是一个“去噪过滤器”。它通过让组内成员互相比较,自动过滤掉了那些因为运气好或运气差产生的“噪音”。
  • 结果就是:GRPO 虽然没请真正的“神仙裁判”(Oracle,即知道标准答案的完美裁判),但它表现得几乎和神仙裁判一模一样。这就是论文说的**“神谕属性”(Oracle Property)**。

3. 关键发现:到底该叫多少人进组?(组大小)

这是论文最实用的部分。

  • 问题:每次出题,是让 AI 生成 4 个答案比较?还是 64 个?还是 128 个?

    • 人太少(组太小):互相比较没意义,噪音大,学不好。
    • 人太多(组太大):虽然比较得准了,但计算太慢,而且因为总算力有限,导致能练习的“题量”(批次)变少了,反而学得不全面。
  • 论文的结论(缩放定律)
    作者推导出了一个万能公式,告诉你最优的组大小是多少。

    • 这个公式告诉你:最优的组大小只取决于题目有多难、模型有多强
    • 不取决于你有多少时间、多少显卡、或者训练了多少轮。
    • 比喻:就像做菜,放多少盐(组大小)只取决于菜本身(数据和模型),而不是取决于你有多少个厨师(算力)或者你打算做几顿饭(训练轮数)。一旦确定了,这个比例就是通用的(Universal)

4. 实验验证:理论是真的吗?

作者在实验中真的去试了:

  • 验证“神谕属性”:他们发现,当组大小(比如 64)足够大时,GRPO 的效果几乎和那个“知道标准答案的完美裁判”一样好,而且比那种“随机叫一个学生打分”的传统方法好得多。
  • 验证“万能公式”:他们在不同的数学数据集(GSM8K 和 MATH)上测试,发现无论训练进行到第几步,或者总预算怎么变,最优的组大小确实是一个固定的数(比如 32 或 64),这完美印证了他们的理论。

总结:这篇论文说了什么?

  1. 揭开了黑箱:GRPO 之所以这么强,不是玄学,而是因为它在数学上是一个完美的U-统计量,能自动消除噪音。
  2. 证明了“平民”也能成“神”:GRPO 不需要昂贵的“价值网络”(Critic Network)来当裁判,它自己内部的“小组互评”机制,就能达到和顶级裁判一样的效果。
  3. 给出了操作指南:告诉工程师们,训练时组大小(Group Size)选多少最合适。这个最佳值是有理论依据的,而且非常稳定,不需要反复试错。

一句话总结
这篇论文用经典的统计学理论,证明了 DeepSeek 等模型使用的 GRPO 训练法不仅有效,而且数学上最优,并给出了一个放之四海而皆准的“组大小”选择公式,让未来的 AI 训练更加科学、高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →