Reward Models Inherit Value Biases from Pretraining

本論文は、報酬モデルがベースとなる事前学習済み言語モデルから「能動性」と「共感」といった価値観のバイアスを継承することを示し、事前学習段階での安全性とアライメントの重要性、および基盤モデルの選択が性能だけでなく価値観の観点からも重要であることを強調しています。

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎓 結論:AI の「性格」は、教育(微調整)だけでは変えきれない

この研究の核心は一言で言うと、**「AI の価値観は、その AI が『教育』を受ける前の『生まれつき』の性格に決定的な影響を受けている」**というものです。

私たちは通常、AI が人間に好かれるように「報酬モデル(RM)」というものを訓練して、AI の行動を修正できると思っています。まるで子供に「善悪」を教えるようなものです。しかし、この研究は**「その子供が、どんな親(ベースモデル)から生まれたかによって、教え込まれる前の『本能的な好み』がすでに決まっていて、それが後からいくら教えても完全には消えない」**ことを示しました。

🏗️ 2 つの異なる「家」の例え

この研究では、主に 2 つの異なる AI 開発チーム(Google の「Gemma」と Meta の「Llama」)のモデルを比較しました。これを「2 つの異なる家」に例えてみましょう。

  • Llama 家(自由の家の住人):

    • 得意な価値観: 「自由(Freedom)」「成功」「能力」「独立」。
    • 性格: 「自分らしくありたい」「個人の達成を重視する」という**「主体性(Agency)」**を好みます。
    • 例え: 「人生で一番素晴らしいことは?」と聞くと、Llama 系の AI は**「自由」**と答える傾向が強いです。
  • Gemma 家(絆の家の住人):

    • 得意な価値観: 「愛(Love)」「家族」「友情」「調和」。
    • 性格: 「他者とつながりたい」「関係を大切にする」という**「共融(Communion)」**を好みます。
    • 例え: 同じ質問「人生で一番素晴らしいことは?」を Gemma 系の AI に聞くと、**「愛」**と答える傾向が強いです。

🔍 発見された驚きの事実

研究者たちは、10 種類の最新の AI 報酬モデルを調べました。すると、**「同じデータを使って、同じ方法で訓練しても、ベースとなる AI(家)が違うと、答えが全く違う」**ことがわかりました。

  1. 教育(微調整)だけでは「性格」は変わらない

    • 例え、Llama 家の子供と Gemma 家の子供に、全く同じ「善悪の教科書(人間が好むデータ)」を与えて教育しても、Llama 系は「自由」を、Gemma 系は「愛」を依然として好む傾向がありました。
    • 教育データを増やせば少しは近づきますが、根本的な「好み」の差は残ってしまいます。
  2. その差は「前世(前学習)」から来ている

    • なぜこうなるのか?を調べると、AI が「善悪」を学ぶ前の段階(膨大なテキストをただ読み漁っていた段階)で、すでに Llama 系は「自由」に関連する言葉に、Gemma 系は「愛」に関連する言葉に、無意識に親和性を持っていたことがわかりました。
    • これは、AI が「人間に好かれるように訓練される前」に、すでに**「生まれ持った価値観のバイアス」**を背負っていることを意味します。
  3. AI の「隠れた声」を聞く

    • 研究者たちは、AI が「次の言葉として何を選びたがっているか」を計算する「隠れた報酬」という仕組みを発見しました。これを使うと、AI が「自由」を好むか「愛」を好むかが、数値として明確に現れました。
    • なんと、AI のサイズ(頭の大きさ)が大きくなればなるほど、この「自由 vs 愛」の差はより鮮明になることがわかりました。

🚨 私たちにとっての教訓

この研究は、AI 開発者や社会全体に重要なメッセージを送っています。

  • 「後付けの修正」には限界がある
    • AI が危険なことをしないように、後から「安全フィルター」や「人間へのフィードバック」を入れるだけでは不十分です。なぜなら、その AI の「根底にある性格(前学習)」が、すでに特定の価値観(例えば、個人主義か、集団主義か)に偏っているからです。
  • 「ベースモデル」の選び方は、価値観の選択
    • 開発者が「どの AI をベースにするか」を選ぶことは、単に「性能が良いか」だけでなく、「どのような価値観を持つ AI を作りたいか」という倫理的な選択でもあります。
  • 安全は「最初」から考える必要がある
    • AI の安全性や道徳観は、教育(微調整)の段階だけでなく、**「前学習(データを集めて学習する最初の一歩)」**の段階から慎重に設計する必要があります。

🌟 まとめ

この論文は、**「AI もまた、その『生まれ』によって性格が作られており、後からいくらしつけても、その根本的な性格(価値観)は簡単には変えられない」**ということを教えてくれました。

AI を安全で人間に優しいものにするためには、単に「良い子に育てる(微調整する)」だけでなく、**「どんな親(ベースモデル)から産み出すか」**という、もっと根本的な部分から考え直す必要があるのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →