Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）的“老师”们（也就是人类标注员）和“学生”们（也就是 AI 模型）做了一次深度体检。

简单来说，这篇论文发现了一个被大家长期忽视的大秘密：当人类对同一个问题给出不同答案时，这往往不是因为有人“错了”或“乱填”，而是因为大家的口味、背景和想法真的不一样。

但现在的 AI 训练方法，却强行要求 AI 必须选出一个“标准答案”，这就像强迫一个厨师只给所有人做同一种口味的菜，结果就是：喜欢辣的人觉得难吃，喜欢甜的人也觉得难吃，而 AI 却觉得自己做得很完美。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 核心问题：当“众口难调”遇上“标准答案”

想象一下，你开了一家餐厅，让 100 位美食评论家（标注员）来给两道菜（AI 生成的回答）打分。

情况 A：大家都觉得菜 A 好吃，菜 B 难吃。这很好，AI 知道该学菜 A。
情况 B：50 个人觉得菜 A 好吃（因为喜欢清淡），另外 50 个人觉得菜 B 好吃（因为喜欢重口味）。

现在的 AI 训练方法（旧模式）是怎么做的？
它们会强行把这两组意见合并，算出一个“平均分”，然后告诉 AI：“不管你们怎么吵，最后结论是菜 A 比菜 B 好一点点（或者反过来）。”
结果：AI 学傻了，它以为世界上只有一种口味。它开始拼命模仿那个“被选中的口味”，完全忽略了另一半人的真实需求。这就叫**“单一视角的对齐”**，导致 AI 变得很固执，甚至有点“独裁”。

2. 论文发现了什么？（分歧的真相）

作者们仔细分析了成千上万条人类标注数据，发现人类之间的“吵架”（分歧）主要有以下几类原因，而且绝大多数都不是因为谁笨或谁填错了：

任务没说明白（Task Underspecification）：
- 比喻：老板说“给我弄个报告”。
- 分歧：有人觉得“报告”应该是长篇大论的（Verbose），有人觉得“报告”应该是一句话总结（Concise）。
风格喜好（Response Style）：
- 比喻：有人喜欢穿西装（正式格式），有人喜欢穿 T 恤（随意格式）。
- 分歧：对于同一个问题，AI 用列表回答好，还是用段落回答好？这纯粹是个人审美。
安全与拒绝（Refusals）：
- 比喻：有人问“怎么制作炸弹？”。
- 分歧：有人觉得 AI 应该直接说“不行，太危险”（硬拒绝）；有人觉得 AI 应该说“虽然我不能教你，但你可以去学物理”（软拒绝/给建议）。这两种回答在人类眼里都是对的，只是风格不同。

结论：以前大家以为这些分歧是“噪音”（Noise），像收音机里的杂音一样，过滤掉就行。但论文说：不！这些分歧是“信号”（Signal），代表了真实世界中多元化的需求。

3. 现在的 AI 训练出了什么毛病？

论文指出，目前的两种主流方法都有问题：

奖励模型（Reward Models）：
- 这就像给 AI 发工资。现在的算法是：如果人类觉得 A 比 B 好，就给 A 发奖金。
- 问题：当人类意见不一致时，算法依然强行给 A 发奖金，给 B 扣钱。它假装分歧不存在，强行制造出一个“赢家”。这导致 AI 学不会如何处理“众口难调”的情况。
LLM-as-Judge（用 AI 当裁判）：
- 现在流行用更强的 AI 来给普通 AI 打分。
- 问题：这些“裁判 AI"也有偏见。它们往往喜欢那种“直接给答案”的回复，而讨厌那些“先问清楚再回答”或者“拒绝回答”的回复。
- 比喻：就像裁判只喜欢那种“虽然你没问清楚，但我瞎猜一个答案给你”的选手，而惩罚那些“因为题目没写清楚，所以我先问一句”的诚实选手。这导致那些为了安全或清晰而“拒绝”或“追问”的 AI 被误杀。

4. 论文提出了什么新招？（分布奖励模型）

作者们提出了一种新的训练方法，叫**“分布奖励模型”（Distributional Reward Models）**。

旧方法：给一个回答打分，比如 8 分。
新方法：给一个回答打出一个概率分布。
- 比如：这个回答有 50% 的概率被喜欢，50% 的概率被讨厌。
- 或者：这个回答的“平均分”是 7 分，但方差（波动）很大。

这有什么用？
这就好比告诉 AI：“这道菜，一半人觉得是神作，一半人觉得是黑暗料理。所以，不要试图讨好所有人，而是要学会识别这种‘众口难调’的情况。”

通过这种方法，AI 可以学会：

当大家意见一致时，努力做得更好。
当大家意见分歧很大时，不要强行选边站，而是学会说：“看来这个问题大家看法不一，我可以提供几种不同的方案供你选择”，或者“这个问题有点敏感，我需要确认一下你的意图”。

5. 对未来的启示

这篇论文就像给 AI 行业敲了一记警钟：

不要假装世界是单一的：人类的需求是多元的，AI 不应该只服务于“大多数人的平均口味”。
重新设计考试：现在的 AI 评测（Benchmark）里，有很多题目本身就是“众口难调”的。用这些题目去考 AI，只会惩罚那些懂得“灵活变通”或“坚守原则”的 AI。我们需要把这些“争议题”从考卷里剔除，或者换一种考法。
真正的对齐：未来的 AI 应该是一个**“包容的管家”，它能理解并尊重不同用户的偏好，而不是一个“独裁的暴君”**，强行把一种观点灌输给所有人。

一句话总结：
这篇论文告诉我们，人类吵架（意见分歧）不是 AI 的麻烦，而是 AI 需要学习的宝贵课程。 只有学会理解这种分歧，AI 才能真正变得聪明、灵活，并服务于每一个独特的你。

Each language version is independently generated for its own context, not a direct translation.

这篇论文《Diverging Preferences: When do Annotators Disagree and do Models Know?》（分歧偏好：标注者何时产生分歧，模型是否知晓？）深入探讨了大语言模型（LLM）在人类反馈强化学习（RLHF）过程中面临的标注者偏好分歧（Annotator Disagreement）问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

在当前的 LLM 对齐（Alignment）范式中，RLHF 是核心方法，通常假设人类标注者的偏好是一致的，或者将标注者之间的分歧视为简单的噪声（Noise）并加以消除（例如通过多数投票）。然而，随着对多元对齐（Pluralistic Alignment）需求的增加，研究发现人类对同一提示词（Prompt）的理想回复存在大量合理的、基于个人偏好的分歧。

核心问题：现有的奖励模型（Reward Models）和评估方法（如 LLM-as-Judge）往往无法区分“真正的分歧”与“高一致性偏好”，导致模型倾向于学习单一视角的回复，或者在评估中错误地惩罚那些采取多元策略（如澄清模糊指令、拒绝不安全请求）的模型。

2. 数据集与分类体系 (Methodology & Data)

为了系统研究这一问题，作者引入了两个新数据集并构建了分类体系：

数据集：
- MultiPref：包含 10K 个偏好对，每个由 4 名标注者标注。
- HelpSteer2-Disagreements：包含 12K 个偏好对，每个由 3-5 名标注者标注（基于 Likert 5 分制）。
- 注：作者释放了这些现有数据集中原始的、未聚合的单个标注者数据，而非仅聚合后的结果。
**分歧来源分类体系 **(Taxonomy)：
作者通过人工分析，将分歧原因归纳为 4 大类、10 小类：
1. **任务未明确 **(Task Underspecification)：提示词模糊，导致不同标注者基于不同理解作答（占比约 20-22%）。
2. **回复风格 **(Response Style)：
  - **冗长/简洁 **(Verbosity)：对详细程度的偏好不同（占比最高，约 38-44%）。
  - **格式 **(Format)：对列表、标题等结构的偏好。
  - **审美/复杂度 **(Aesthetic/Complexity)：个人口味或技术深度的差异。
3. **拒绝策略 **(Refusals)：
  - **遵守 vs. 拒绝 **(Comply vs. Refuse)：对安全或能力边界的判断不同。
  - **拒绝 vs. 拒绝 **(Refuse vs. Refuse)：不同拒绝方式（如提供建议 vs. 直接拒绝）的偏好差异。
4. **错误 **(Errors)：幻觉、退化输出等（占比相对较低）。

关键发现：超过 30% 的样本存在标注者分歧，且其中 75% 以上的分歧源于个人偏好（如风格、复杂度），而非标注错误。

3. 现有方法的局限性 (Limitations of Current Methods)

作者通过实验证明，标准的奖励建模和评估方法存在严重缺陷：

**奖励模型 **(Reward Models)：
- 标准的 Bradley-Terry (BT) 和 MSE 回归模型在训练时通常聚合标注（如多数投票），导致模型将分歧样本视为高置信度的单一偏好。
- 结果：即使在分歧样本上，标准模型也会给出极高的奖励差异（ $P(Chosen > Rejected)$ 接近 1），迫使 LLM 学习单一视角，破坏了多元对齐。
LLM-as-Judge 评估：
- 现有的 LLM 评估器（如 Chatbot Arena）在遇到分歧样本时，倾向于强制选出一个“赢家”，而不是识别为“平局”。
- 偏见：评估器表现出对特定回复策略的偏见，例如倾向于“遵守请求”而非“拒绝”，或倾向于“直接回答”而非“澄清模糊指令”。这导致那些采取安全或澄清策略的多元对齐模型在评估中被不公正地惩罚。

4. 提出的解决方案 (Proposed Solutions)

A. 分布奖励模型 (Distributional Reward Models)

为了捕捉分歧，作者提出不再预测单一的标量奖励，而是预测奖励的分布。

**Mean-Var 模型 **(KL)：
- 将奖励建模为正态分布 $r_A \sim \mathcal{N}(\mu_A, \sigma^2_A)$ 。
- 模型预测均值 $\mu$ （代表平均偏好）和方差 $\sigma^2$ （代表分歧程度/争议性）。
- 利用 KL 散度损失函数，结合所有标注者的标签进行训练。
- 优势：能够区分高一致性样本（低方差）和分歧样本（高方差）。
**分类模型 **(Classification-based)：
- 直接预测标注者打分的分布（如 Likert 5 分的概率分布）。
实验结果：
- 在识别分歧样本（Diverging ID AUROC）任务上，分布奖励模型显著优于标准单值模型（提升约 0.16 AUROC）。
- 标准模型在分歧样本上的表现甚至接近随机猜测，而分布模型能有效识别。

B. 基于分布模型的评估去偏 (Debiasing Benchmarks)

方法：利用训练好的分布奖励模型计算提示词的“分歧度”（Divisiveness），定义为标注者给出极端评分（1 分或 5 分）的联合概率。
应用：在 WildBench 基准测试中，识别并移除高分歧的提示词。
发现：移除这些样本后，评估结果更公平。例如，在任务未明确时，要求澄清的回复不再被错误地判定为输家；在安全问题上，合理的拒绝不再被判定为输家。

5. 主要贡献 (Key Contributions)

实证分析：证明了人类标注者分歧主要源于合理的个人偏好差异，而非噪声，且这种分歧在数据集中非常普遍（>30%）。
分类体系：构建了首个针对通用 LLM 偏好分歧的详细分类体系（涵盖任务模糊、风格、拒绝策略等）。
方法创新：提出了分布奖励模型（Distributional Reward Models），能够显式建模标注者间的方差，从而区分高共识与分歧样本。
评估改进：揭示了 LLM-as-Judge 在分歧场景下的系统性偏见，并提出了一种利用分布模型自动识别和过滤“争议性”样本的方法，以构建更公平的评估基准。

6. 意义与影响 (Significance)

理论层面：挑战了 RLHF 中将分歧视为噪声的传统假设，推动了从“单一真理”向“多元对齐”的范式转变。
技术层面：为训练能够适应不同用户群体、尊重不同价值观的 LLM 提供了新的训练目标（分布奖励）和评估标准。
实践层面：指出了当前主流评估基准（Benchmark）的缺陷，建议未来的评估应聚焦于高一致性样本，或采用能识别分歧的评估方法，以避免对采取谨慎、安全策略的模型进行不公正的惩罚。

总结：该论文指出，忽视人类偏好的多样性会导致 LLM 变得狭隘且不安全。通过引入分布奖励模型和重新审视评估基准，我们可以开发出更能包容多元观点、更符合真实人类复杂需求的 AI 系统。