Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 P-GRPO（个性化组相对策略优化）的新方法，旨在解决大型语言模型（LLM）在“讨好”所有人时，反而谁都没讨好好的问题。

为了让你轻松理解，我们可以把训练 AI 想象成一家餐厅的厨师在根据顾客反馈改进菜品。

1. 核心问题：为什么现在的 AI 像个“和稀泥”的厨师？

想象一下，你开了一家餐厅，有两位常客：

顾客 A（大众派）：喜欢清淡、少盐的菜。
顾客 B（重口味派）：喜欢麻辣、重油的菜。

现在的训练方法（叫 GRPO）是这样工作的：
厨师每天做 10 道菜，让这 10 位顾客（或者模拟的 10 个口味）一起打分。

如果今天来的 10 个人里，有 8 个是“大众派”，2 个是“重口味派”。
厨师会发现：“哎呀，清淡的菜得分高，麻辣的菜得分低。”
于是，厨师为了拿高分，只学做清淡的菜。

结果是什么？

那 8 个大众派顾客很满意。
但那 2 个重口味顾客彻底失望了，因为他们喜欢的口味被“平均化”给淹没了。
更糟糕的是，如果明天来的全是重口味顾客，厨师因为只学过清淡菜，做出来的菜依然很难吃。

论文指出的问题： 现有的 AI 训练方法，就像这个厨师，它把所有人的反馈混在一起算平均分。这导致 AI 只学会了“大多数人的喜好”，而忽略了少数人（或者特定群体）独特的、真实的偏好。

2. 解决方案：P-GRPO（个性化分组策略）

P-GRPO 给这位厨师换了一套更聪明的打分系统。

它不再把所有人混在一起打分，而是给每个顾客群体建立独立的“口味档案”。

对于“大众派”群体：厨师会看这个群体历史上所有清淡菜的得分。如果今天这道清淡菜比他们平时的平均水平好，厨师就受到鼓励（加分）。
对于“重口味派”群体：厨师会看这个群体历史上所有麻辣菜的得分。如果今天这道麻辣菜比他们平时的平均水平好，厨师同样受到鼓励。

关键区别在于：

旧方法：拿“麻辣菜”和“清淡菜”比，麻辣菜肯定输，所以厨师不敢做麻辣菜。
新方法（P-GRPO）：拿“麻辣菜”和“重口味顾客平时的标准”比。只要这道菜符合重口味顾客的预期，哪怕它比清淡菜得分低，厨师依然会得到正向的反馈。

3. 这个新方法好在哪里？

论文通过实验证明了 P-GRPO 的三大优势：

学得更快（收敛更快）：
就像厨师不再纠结于“为什么麻辣菜在清淡组里得分低”这种无解的问题，而是专注于“如何让麻辣菜在重口味组里变得更好”。目标更清晰，进步自然更快。
谁都能讨好（公平性）：
无论是喜欢清淡的，还是喜欢重口味的，AI 都能学会如何满足他们。它不再为了讨好 80% 的人而牺牲 20% 的人。这就像餐厅终于能同时提供完美的“清蒸鱼”和“水煮肉片”了。
不忘本（通用能力不下降）：
有人担心：厨师专门练了“重口味”，会不会连基本的“炒菜”都不会了？
论文测试发现，完全不会。AI 在学会个性化偏好的同时，依然保留了原本强大的逻辑推理和通用知识能力。它只是多了一项“看人下菜碟”的超能力。

4. 总结：这不仅仅是技术，更是“尊重”

这篇论文的核心思想其实很简单：每个人的喜好都是独特的，不能用一把尺子去衡量所有人。

以前的 AI：试图做一个“最大公约数”，结果变成了“平庸的中间派”。
现在的 P-GRPO：承认差异，为不同的群体建立独立的“进步坐标系”。

一句话比喻：
以前的训练是让 AI 去猜“大家最喜欢什么”，结果它只猜到了“大多数人”；
现在的 P-GRPO 是让 AI 学会“观察每个人真正喜欢什么”，从而让每一个独特的用户都能感受到被理解和被尊重。

这对于未来构建真正智能、贴心的个人助手至关重要——毕竟，我们需要的不是一个只会说“大家都这么想”的机器人，而是一个能听懂“我就是这样想”的伙伴。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心问题：
大型语言模型（LLM）在通用任务上表现出色，但在面对多样化的个体用户偏好时往往表现不佳。现有的对齐方法（如基于人类反馈的强化学习 RLHF）通常优化单一的全局目标，假设所有用户的奖励信号是同质的（Homogeneous）。

现有方法的局限性：

GRPO (Group Relative Policy Optimization) 的缺陷： GRPO 是目前广泛采用的在线强化学习框架。它通过在一个 Prompt 下采样一组（Group）完成轨迹，并在组内进行归一化来计算优势函数（Advantage）。
异质偏好下的偏差： GRPO 的组内归一化隐含假设组内所有样本来自同一偏好分布。然而，当用户偏好存在异质性（Heterogeneity）时（例如：有的用户喜欢简洁，有的喜欢详尽；有的群体对技术细节要求高，有的则不然），这种归一化会导致统计收缩（Statistical Shrinkage）。
- 多数派主导： 训练会倾向于优化占主导地位的偏好模式。
- 少数派抑制： 属于少数群体或具有不同奖励分布（均值或方差不同）的用户，其奖励信号在组内归一化后会被削弱或产生噪声梯度，导致模型无法有效学习这些少数派的偏好，甚至产生系统性偏差。

目标：
开发一种能够在不牺牲通用能力的前提下，有效对齐异质用户偏好，避免少数派信号被系统性抑制的优化框架。

2. 方法论：个性化 GRPO (P-GRPO)

作者提出了 P-GRPO (Personalized Group Relative Policy Optimization)，这是一种对标准 GRPO 的改进算法，旨在解耦优势估计与当前批次的即时统计量。

核心思想

P-GRPO 不再将当前生成组（Generation Batch）内的所有样本视为可交换的，而是将奖励归一化到特定偏好组（Preference Group）的历史统计量上。

技术细节

偏好分组假设： 假设用户群体可以划分为有意义的偏好组（通过显式用户 ID 或隐式信号聚类获得）。不同组 $p$ 具有不同的奖励分布（均值 $\mu_p$ 和方差 $\sigma_p$ ）。
个性化优势函数计算：
- 标准 GRPO： 优势函数 $\hat{A}$ 基于当前组内奖励的均值和标准差计算：
  $\hat{A}_{i,t} = \frac{R_i - \text{mean}(\{R\}_G)}{\text{std}(\{R\}_G) + \epsilon}$
- P-GRPO： 优势函数 $\tilde{A}$ 基于该用户所属偏好组 $p$ 的历史运行统计量计算：
  $\tilde{A}^p_{i,t} = \frac{R_i - \mu_p}{\sigma_p + \epsilon}$
  其中 $\mu_p$ 和 $\sigma_p$ 是该偏好组所有历史奖励的均值和标准差。
在线统计更新 (Welford's Algorithm)：
- 为了在大规模分布式训练中避免存储所有历史奖励（ $O(N)$ 空间复杂度），P-GRPO 使用 Welford 在线算法 来迭代更新每个偏好组的均值和方差。
- 每个偏好组维护三个状态：计数 $n_p$ 、运行均值 $\mu_p$ 、平方差之和 $M_p$ 。这使得更新复杂度为 $O(1)$ 且数值稳定。
算法流程 (Algorithm 1)：
- 初始化每个偏好组的统计量。
- 在训练过程中，对于每个采样到的完成项，先更新其对应偏好组的统计量（均值/方差）。
- 使用更新后的 $\mu_p$ 和 $\sigma_p$ 计算个性化优势函数。
- 代入 GRPO 损失函数进行策略更新。

理论洞察

偏差校正： P-GRPO 的优势函数可以分解为“缩放后的组优势”加上一个“偏差校正项”。
公平性： 对于“容易满足”的偏好（高奖励）和“难以满足”的偏好（低奖励），P-GRPO 都能根据其自身基准提供合理的梯度更新，防止模型仅优化简单偏好而忽略复杂偏好。

3. 实验设置与结果 (Experiments & Results)

实验设置

模型： 使用了不同规模的模型进行测试，包括 Gemma-2B, Qwen3-1.7B, 和 Qwen3-8B。
任务与数据集：
1. 内容推荐 (MovieLens-1M)： 预测用户下一部观看的电影。通过 K-Means 对用户进行聚类。
2. 合成偏好数据 (Synthetic)： 基于音乐流派生成具有不同人格（Persona）和语言风格的评论数据。
3. 真实评论生成 (Goodreads)： 基于书籍评论生成，利用评分作为偏好聚类的代理。
4. KGRec (音乐推荐)： 基于知识图谱的音乐描述生成。
基线对比： 标准 GRPO、GDPO (Group Distributional Preference Optimization，一种基于离策略的组优化方法)。

主要结果

收敛速度与奖励：
- 在所有任务和模型规模上，P-GRPO 的收敛速度均快于标准 GRPO。
- P-GRPO 达到了更高的平均奖励，表明其能更好地适应多样化的用户群体，而不是过度优化简单偏好。
测试性能 (MovieLens)：
- 在候选集数量增加（泛化测试）的情况下，P-GRPO 的 Top-1 准确率始终高于 GRPO（例如在 4 个选项中，Qwen3-8B 达到 65.77% vs GRPO 的 63.79%）。
生成质量 (ROUGE & 语义相似度)：
- 在合成数据、Goodreads 和 KGRec 任务中，P-GRPO 在 ROUGE-1, ROUGE-2, ROUGE-L 以及余弦相似度指标上均优于 GRPO 和 GDPO。
- LLM-as-Judge 评估： 使用 GPT-OSS-120B 作为裁判，P-GRPO 生成的回答在语义质量、连贯性和用户偏好对齐度上，在所有偏好簇中均获得了更高的胜率。
消融实验：
- 聚类粒度： 更细粒度的聚类（10 个簇）比粗粒度（1 个簇，即标准 GRPO）效果更好。
- 聚类质量： 随机分配簇 ID 无法带来性能提升，证明了有意义的偏好聚类是 P-GRPO 生效的关键。
通用能力保留：
- 在 MMLU 基准测试上，经过 P-GRPO 微调的模型保持了与预训练模型几乎一致的性能（变化在 $\pm 0.06\%$ 以内），证明个性化对齐没有损害模型的通用推理能力。

4. 关键贡献 (Key Contributions)

揭示了 GRPO 的异质偏好偏差： 首次明确指出标准 GRPO 的组内归一化机制在处理异质奖励分布时，会系统性地抑制少数派偏好信号，导致模型向多数派偏好坍缩。
提出了 P-GRPO 框架： 设计了一种新颖的在线强化学习算法，通过将优势估计解耦为偏好组特定的历史统计量，实现了对异质偏好的公平优化。
高效的实现方案： 引入 Welford 在线算法，使得在大规模分布式训练中维护每个用户/簇的统计量成为可能，且无需存储历史数据。
全面的实证验证： 在推荐系统和文本生成等多个任务、多种模型架构上验证了 P-GRPO 在收敛速度、奖励提升和泛化能力上的优越性，并证明了其不牺牲通用能力。

5. 意义与影响 (Significance)

解决对齐公平性问题： P-GRPO 为解决 LLM 对齐中的“多数派暴政”问题提供了优化层面的解决方案。它确保拥有非主流或复杂偏好的用户也能获得高质量的模型服务，减少了系统性偏差。
推动个性化 LLM 发展： 该方法为构建真正个性化的 AI 系统提供了新的范式，即不再依赖复杂的提示工程或额外的用户嵌入层，而是直接从优化目标上适配偏好分布。
社会影响与局限性：
- 积极面： 提升了 AI 系统的包容性，服务于更多样化的用户群体。
- 挑战： 依赖聚类质量，若聚类不当可能加剧偏见；需警惕“信息茧房”效应（过度个性化导致用户视野狭窄）。
- 未来方向： 需要结合隐私保护技术（如联邦学习）、动态偏好漂移检测机制，以及在事实性任务中谨慎使用个性化。

总结： 这篇论文通过改进强化学习的优势归一化机制，成功解决了 LLM 在异质偏好环境下的对齐难题，为构建更公平、更个性化的下一代语言模型奠定了重要的理论和实践基础。