Reward Models Inherit Value Biases from Pretraining

该研究通过实证分析表明,奖励模型(RM)会继承其预训练基座模型中固有的价值观偏差(如 Llama 模型偏向“能动性”而 Gemma 模型偏向“共融性”),且这种偏差在偏好数据和对齐过程相同的情况下依然稳健存在,从而强调了预训练阶段价值观对齐的重要性以及开源开发者选择基座模型时的价值考量。

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做“体检”,结果发现了一个令人惊讶的真相:奖励模型(Reward Models)并不是像我们想象的那样是一张“白纸”,它们从出生起就带着“遗传基因”里的偏见。

为了让你轻松理解,我们可以把整个过程想象成**“培养一个超级裁判”**的故事。

1. 故事背景:我们需要一个“裁判”

在人工智能的世界里,为了让大模型(比如 Llama 或 Gemma)更听话、更符合人类价值观,我们需要训练一个“裁判”(也就是论文里的奖励模型,RM)。

  • 大模型是“学生”,负责回答问题。
  • 奖励模型是“老师/裁判”,负责给学生的回答打分。分数高的回答会被保留,分数低的会被淘汰。
  • 通常,这个“裁判”是由一个已经受过教育的“学生”(预训练模型)稍微微调一下变成的。

2. 核心发现:裁判的“口味”来自它的“出身”

研究人员发现,虽然这些“裁判”是用同样的数据、同样的方法训练的,但它们的打分习惯却截然不同。这就像两个厨师,虽然用同样的菜谱和食材,但做出来的菜味道完全不同。为什么?因为他们的**“出身”(基础模型)**不同。

  • Llama 系的裁判:天生喜欢**“个人英雄主义”**(Agency)。

    • 当被问到“世界上最好的东西是什么?”时,Llama 系的裁判会毫不犹豫地给 “自由” (Freedom)“成功”“能力” 打高分。
    • 它觉得:一个人能掌控自己的命运、实现目标,这才是最棒的。
  • Gemma 系的裁判:天生喜欢**“温情脉脉”**(Communion)。

    • 同样的问题,Gemma 系的裁判会给 “爱” (Love)“家庭”“友谊” 打高分。
    • 它觉得:人与人之间的连接、关爱和和谐,才是世间至宝。

这就好比:
如果你让一个从小在“独立奋斗”文化里长大的裁判(Llama)和一个在“大家庭互助”文化里长大的裁判(Gemma)去评判同一件事,即使你给他们看完全一样的评分标准,他们心里的“天平”倾斜的方向也是不一样的。

3. 实验过程:这种偏见能洗掉吗?

研究人员做了一个大胆的实验:他们试图通过大量的“训练数据”(也就是给裁判看更多的评分案例),来“洗掉”这些与生俱来的偏见。

  • 比喻:就像试图通过给一个有偏见的法官看一万份判决书,让他变得完全公正。
  • 结果
    • 偏见确实减弱了,但没有完全消失
    • 即使训练了很长时间,用了大量的数据,Llama 系的裁判依然比 Gemma 系的裁判更看重“自由”,而 Gemma 系的裁判依然更看重“爱”。
    • 这就好比一个人的“性格底色”很难被完全抹去,它已经深深烙印在神经网络的“基因”里了。

4. 更深层的秘密:偏见早在“出生前”就有了

研究人员进一步追溯,发现这种偏见不仅仅是在训练“裁判”时产生的,甚至在预训练阶段(也就是模型还没开始学做裁判,只是像婴儿一样阅读互联网海量数据时)就已经形成了。

  • 比喻:这就像 Llama 和 Gemma 这两个“婴儿”在学说话时,读的书、看的新闻本身就带有不同的文化倾向。Llama 读的书里更多讲“个人成就”,Gemma 读的书里更多讲“人际关系”。
  • 当他们长大变成“裁判”时,这些早期的阅读习惯(预训练数据)已经变成了他们潜意识里的价值观。

5. 这个发现意味着什么?(给开发者的启示)

这篇论文给所有开发 AI 的人敲响了警钟:

  1. 选模型就是选价值观:当你决定用 Llama 还是 Gemma 作为基础来开发 AI 时,你不仅仅是在选“性能更好”的模型,你实际上是在选择一种价值观。你是在决定你的 AI 是更偏向“个人奋斗”还是“集体关爱”。
  2. 事后补救很难:仅仅靠后期的“对齐”(RLHF,即让模型学习人类反馈)很难完全扭转预训练阶段留下的深刻偏见。就像很难通过几年的学校教育完全改变一个人的原生家庭性格一样。
  3. 安全要从源头抓起:如果我们希望 AI 是安全且公正的,我们不能只盯着最后的“裁判”训练,必须从最开始的“预训练”阶段就开始注意数据的筛选和价值观的引导。

总结

这就好比**“龙生龙,凤生凤”
奖励模型(裁判)虽然是为了模仿人类价值观而生的,但它们其实继承了其“父母”(基础大模型)的
性格基因**。

  • Llama 的孩子更崇尚自由与独立
  • Gemma 的孩子更崇尚爱与连接

这篇论文告诉我们:在构建 AI 时,“出身”(预训练模型的选择)比“后天教育”(微调数据)更能决定 AI 的核心价值观。 开发者在挑选“父母”时,必须像挑选孩子的教育环境一样慎重,因为这关乎 AI 未来的道德底色。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →