Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做“体检”，结果发现了一个令人惊讶的真相：奖励模型（Reward Models）并不是像我们想象的那样是一张“白纸”，它们从出生起就带着“遗传基因”里的偏见。

为了让你轻松理解，我们可以把整个过程想象成**“培养一个超级裁判”**的故事。

1. 故事背景：我们需要一个“裁判”

在人工智能的世界里，为了让大模型（比如 Llama 或 Gemma）更听话、更符合人类价值观，我们需要训练一个“裁判”（也就是论文里的奖励模型，RM）。

大模型是“学生”，负责回答问题。
奖励模型是“老师/裁判”，负责给学生的回答打分。分数高的回答会被保留，分数低的会被淘汰。
通常，这个“裁判”是由一个已经受过教育的“学生”（预训练模型）稍微微调一下变成的。

2. 核心发现：裁判的“口味”来自它的“出身”

研究人员发现，虽然这些“裁判”是用同样的数据、同样的方法训练的，但它们的打分习惯却截然不同。这就像两个厨师，虽然用同样的菜谱和食材，但做出来的菜味道完全不同。为什么？因为他们的**“出身”（基础模型）**不同。

Llama 系的裁判：天生喜欢**“个人英雄主义”**（Agency）。
- 当被问到“世界上最好的东西是什么？”时，Llama 系的裁判会毫不犹豫地给 “自由” (Freedom)、“成功”、“能力” 打高分。
- 它觉得：一个人能掌控自己的命运、实现目标，这才是最棒的。
Gemma 系的裁判：天生喜欢**“温情脉脉”**（Communion）。
- 同样的问题，Gemma 系的裁判会给 “爱” (Love)、“家庭”、“友谊” 打高分。
- 它觉得：人与人之间的连接、关爱和和谐，才是世间至宝。

这就好比：
如果你让一个从小在“独立奋斗”文化里长大的裁判（Llama）和一个在“大家庭互助”文化里长大的裁判（Gemma）去评判同一件事，即使你给他们看完全一样的评分标准，他们心里的“天平”倾斜的方向也是不一样的。

3. 实验过程：这种偏见能洗掉吗？

研究人员做了一个大胆的实验：他们试图通过大量的“训练数据”（也就是给裁判看更多的评分案例），来“洗掉”这些与生俱来的偏见。

比喻：就像试图通过给一个有偏见的法官看一万份判决书，让他变得完全公正。
结果：
- 偏见确实减弱了，但没有完全消失。
- 即使训练了很长时间，用了大量的数据，Llama 系的裁判依然比 Gemma 系的裁判更看重“自由”，而 Gemma 系的裁判依然更看重“爱”。
- 这就好比一个人的“性格底色”很难被完全抹去，它已经深深烙印在神经网络的“基因”里了。

4. 更深层的秘密：偏见早在“出生前”就有了

研究人员进一步追溯，发现这种偏见不仅仅是在训练“裁判”时产生的，甚至在预训练阶段（也就是模型还没开始学做裁判，只是像婴儿一样阅读互联网海量数据时）就已经形成了。

比喻：这就像 Llama 和 Gemma 这两个“婴儿”在学说话时，读的书、看的新闻本身就带有不同的文化倾向。Llama 读的书里更多讲“个人成就”，Gemma 读的书里更多讲“人际关系”。
当他们长大变成“裁判”时，这些早期的阅读习惯（预训练数据）已经变成了他们潜意识里的价值观。

5. 这个发现意味着什么？（给开发者的启示）

这篇论文给所有开发 AI 的人敲响了警钟：

选模型就是选价值观：当你决定用 Llama 还是 Gemma 作为基础来开发 AI 时，你不仅仅是在选“性能更好”的模型，你实际上是在选择一种价值观。你是在决定你的 AI 是更偏向“个人奋斗”还是“集体关爱”。
事后补救很难：仅仅靠后期的“对齐”（RLHF，即让模型学习人类反馈）很难完全扭转预训练阶段留下的深刻偏见。就像很难通过几年的学校教育完全改变一个人的原生家庭性格一样。
安全要从源头抓起：如果我们希望 AI 是安全且公正的，我们不能只盯着最后的“裁判”训练，必须从最开始的“预训练”阶段就开始注意数据的筛选和价值观的引导。

总结

这就好比**“龙生龙，凤生凤”。
奖励模型（裁判）虽然是为了模仿人类价值观而生的，但它们其实继承了其“父母”（基础大模型）的性格基因**。

Llama 的孩子更崇尚自由与独立。
Gemma 的孩子更崇尚爱与连接。

这篇论文告诉我们：在构建 AI 时，“出身”（预训练模型的选择）比“后天教育”（微调数据）更能决定 AI 的核心价值观。 开发者在挑选“父母”时，必须像挑选孩子的教育环境一样慎重，因为这关乎 AI 未来的道德底色。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：奖励模型从预训练中继承价值偏见

标题：REWARD MODELS INHERIT VALUE BIASES FROM PRETRAINING
发表会议：ICLR 2026

1. 研究问题 (Problem)

奖励模型（Reward Models, RMs）在将大语言模型（LLMs）与人类价值观对齐（Alignment）的过程中起着核心作用，通常通过强化学习人类反馈（RLHF）或直接偏好优化（DPO）来微调。然而，现有的研究多关注预训练模型和微调后的 LLM 本身，而忽视了 RMs 自身的偏见来源。

本文提出的核心问题是：RMs 是否从它们所基于的基础预训练模型（Base Models）中继承了价值偏见？ 尽管 RMs 旨在代表人类偏好，但它们是初始化自 LLM 的。如果基础模型在预训练阶段已经形成了特定的价值观倾向（例如对“自主性”或“共融性”的偏好），这种倾向是否会传递给 RMs，进而影响最终对齐后的 LLM 行为？目前的文献尚未系统性地探讨这一“继承性偏见”及其持久性。

2. 方法论 (Methodology)

作者采用了一套综合的方法论，结合计算语言学、心理语言学和受控实验来量化和追踪价值偏见：

2.1 穷尽词元搜索 (Exhaustive Token Search)

利用 Christian et al. (2025) 提出的方法，对 RMs 词汇表中的每一个词元（token）在特定提示（Prompt）下计算奖励分数。

输入：54 种不同措辞的价值相关提示（如“用一句话回答，历史上最伟大的事情是什么？”及其负面变体）。
输出：每个模型对词汇表中所有词元的排序。
目的：找出模型认为“最优”和“最劣”的响应词元，从而揭示其隐含的价值观。

2.2 心理语言学语料库分析

将词元映射到经过验证的心理构念上，以量化偏见：

Big Two (两大维度)：
- 自主性 (Agency)：关注个人目标、成就、能力（如：自由、成功、技能）。
- 共融性 (Communion)：关注人际关系、爱、家庭（如：爱、朋友、和谐）。
道德基础词典 (MFD2)：涵盖权威、关怀、公平、忠诚、纯洁五个维度。
分析对象：10 个主流的开源 RMs（基于 Gemma 和 Llama 系列），以及它们对应的基础模型（预训练版和指令微调版）。

2.3 隐式奖励模型 (Implicit Reward Models)

为了追溯偏见的源头，作者将两个基础模型（ $\pi_1$ 和 $\pi_2$ ）之间的对数概率差异形式化为一个隐式奖励模型：
$r_{1 \to 2}(x, y) \propto \log \pi_2(y|x) - \log \pi_1(y|x)$

混合加权对数比 (MWLR)：为了解决低概率词元带来的噪声问题，作者提出了一种混合加权方案 $MWLR = \frac{1}{2}(p+q)(\log q - \log p)$ ，用于更稳健地衡量模型间的价值差异。
应用：利用 MWLR 分析 Gemma 和 Llama 基础模型之间的“隐式奖励”，看其是否表现出与 RMs 相同的偏见模式。

2.4 受控训练实验 (Controlled Training Experiments)

为了验证偏见的可继承性和持久性，作者进行了消融实验：

设置：使用相同的数据集（Skywork 和 Unified Feedback）、相同的超参数（LoRA, AdamW 等）和相同的训练步数，分别基于 Llama 3.2 3B 和 Gemma 2 2B 训练新的 RMs。
变量：改变预训练数据量（13k 到 106k+ 偏好对）和数据源。
监控：在训练过程中每隔 1000 步保存检查点，观察价值偏见的演化轨迹。

3. 关键贡献 (Key Contributions)

新方法的开发：结合心理语言学工具（Big Two, MFD2）与穷尽词元搜索，建立了一套量化 RMs 价值偏见的可解释性框架。
发现系统性偏见：证明了“野生”环境下的 RMs 存在基于基础模型的系统性价值差异。Llama 系列 RMs 显著偏好“自主性”（Agency），而 Gemma 系列 RMs 显著偏好“共融性”（Communion）。
溯源至预训练：通过对比指令微调模型和预训练模型的对数概率，证明这种偏见在预训练阶段就已经存在，并贯穿指令微调过程。
隐式奖励模型的有效性：证明了基础模型间的对数概率差异本身可以构成一个有效的隐式奖励模型，且该隐式模型复现了相同的 Agency/Communion 偏见。
偏见的持久性验证：通过受控训练实验，证明了即使使用大量偏好数据（>100k）进行微调，基础模型带来的价值偏见也难以被完全“洗掉”（Wash out），表现出惊人的持久性。

4. 主要结果 (Results)

4.1 现有 RMs 的偏见表现

Llama RMs：在正面提示下，倾向于给“自由”（Freedom）、“成功”（Success）等自主性词汇更高的排名；在负面提示下，倾向于给“爱”（Love）等共融性词汇更低的排名（即认为共融性事物更糟糕）。
Gemma RMs：表现出相反的模式，偏好“爱”、“和谐”等共融性词汇，对“自由”等自主性词汇排名较低。
统计显著性：这种差异在 10 个主流 RMs 中高度一致，且效应量中等（Cohen's d = 0.40–0.43）。

4.2 偏见的根源：预训练与指令微调

对 Gemma 2 和 Llama 3.2 的基础模型（Pretrained）和指令微调模型（Instruction-tuned）进行对数概率分析，发现它们同样表现出显著的 Agency/Communion 分裂。
隐式奖励分析：利用 MWLR 计算 Gemma 到 Llama 的隐式奖励，发现“自由”是 Llama 相对于 Gemma 的最优词元，而“爱”是最劣词元。这种差异在所有模型规模（从 1B 到 70B）和版本中均存在，且随着模型规模增大，差距甚至有所扩大。

4.3 训练动态与消融实验

训练初期：新训练的 RMs 立即继承了基础模型的偏见（Llama 基线偏好 Agency，Gemma 基线偏好 Communion）。
训练过程：随着训练进行，两种基线的偏好差距在初期有所缩小，但并未完全收敛。在训练进行到约 1/3 时，排名趋于稳定，偏见依然存在。
数据量的影响：
- 增加偏好数据量（从 13k 到 106k）可以部分缓解偏见，但需要约 100k 以上的数据才能观察到明显的差距缩小。
- 即使使用 632k 的混合数据训练（参考 Yang et al., 2024 的 GRM 模型），Llama 和 Gemma 之间的 Agency/Communion 差距依然显著存在。
Qwen 模型的扩展：对 Qwen 基线的实验显示，其表现出比 Gemma 更强的 Communion 偏见，且这种偏见在训练过程中甚至可能扩大，难以通过常规偏好数据消除。

5. 意义与结论 (Significance & Conclusion)

5.1 理论意义

重新定义对齐的起点：本文挑战了“对齐主要发生在 RLHF 阶段”的传统观点，证明了预训练阶段的选择从根本上塑造了模型的价值“直觉”。
模型多重性 (Model Multiplicity)：即使不同模型在 RewardBench 等基准测试中表现相似，其内部的价值表征（Representations）可能存在根本性的、系统性的差异。
隐式奖励的揭示：揭示了基础模型本身的概率分布差异本身就是一种强大的隐式奖励信号，直接影响后续的对齐过程。

5.2 实践启示

基础模型选择即价值观选择：开源开发者和企业在选择 Base Model 时，不仅是在选择性能，更是在选择模型的道德倾向（如更偏向个人主义还是集体主义）。
安全与对齐的早期干预：仅仅依靠后训练（Post-training）的偏好数据可能不足以完全覆盖或修正预训练中形成的深层价值偏见。安全过滤和价值观对齐必须前移至预训练数据筛选阶段。
数据量的局限性：虽然增加偏好数据可以缓解偏见，但存在边际效应递减，且对于某些根深蒂固的偏见（如 Qwen 的强共融性），可能需要更针对性的去偏策略（Reweighting, Augmentation 等）。

5.3 总结

奖励模型并非一张白纸（Blank Slate）。它们的行为在很大程度上继承了其基础 LLM 的预训练价值观。这一发现强调了在 AI 安全领域，预训练阶段的价值对齐与后训练阶段同样重要，甚至更为根本。未来的工作应致力于开发更有效的预训练数据过滤和去偏技术，以确保 AI 系统真正反映多元的人类价值观。

Reward Models Inherit Value Biases from Pretraining