Each language version is independently generated for its own context, not a direct translation.

🎓 結論：AI の「性格」は、教育（微調整）だけでは変えきれない

この研究の核心は一言で言うと、**「AI の価値観は、その AI が『教育』を受ける前の『生まれつき』の性格に決定的な影響を受けている」**というものです。

私たちは通常、AI が人間に好かれるように「報酬モデル（RM）」というものを訓練して、AI の行動を修正できると思っています。まるで子供に「善悪」を教えるようなものです。しかし、この研究は**「その子供が、どんな親（ベースモデル）から生まれたかによって、教え込まれる前の『本能的な好み』がすでに決まっていて、それが後からいくら教えても完全には消えない」**ことを示しました。

🏗️ 2 つの異なる「家」の例え

この研究では、主に 2 つの異なる AI 開発チーム（Google の「Gemma」と Meta の「Llama」）のモデルを比較しました。これを「2 つの異なる家」に例えてみましょう。

Llama 家（自由の家の住人）：
- 得意な価値観： 「自由（Freedom）」「成功」「能力」「独立」。
- 性格： 「自分らしくありたい」「個人の達成を重視する」という**「主体性（Agency）」**を好みます。
- 例え： 「人生で一番素晴らしいことは？」と聞くと、Llama 系の AI は**「自由」**と答える傾向が強いです。
Gemma 家（絆の家の住人）：
- 得意な価値観： 「愛（Love）」「家族」「友情」「調和」。
- 性格： 「他者とつながりたい」「関係を大切にする」という**「共融（Communion）」**を好みます。
- 例え： 同じ質問「人生で一番素晴らしいことは？」を Gemma 系の AI に聞くと、**「愛」**と答える傾向が強いです。

🔍 発見された驚きの事実

研究者たちは、10 種類の最新の AI 報酬モデルを調べました。すると、**「同じデータを使って、同じ方法で訓練しても、ベースとなる AI（家）が違うと、答えが全く違う」**ことがわかりました。

教育（微調整）だけでは「性格」は変わらない
- 例え、Llama 家の子供と Gemma 家の子供に、全く同じ「善悪の教科書（人間が好むデータ）」を与えて教育しても、Llama 系は「自由」を、Gemma 系は「愛」を依然として好む傾向がありました。
- 教育データを増やせば少しは近づきますが、根本的な「好み」の差は残ってしまいます。
その差は「前世（前学習）」から来ている
- なぜこうなるのか？を調べると、AI が「善悪」を学ぶ前の段階（膨大なテキストをただ読み漁っていた段階）で、すでに Llama 系は「自由」に関連する言葉に、Gemma 系は「愛」に関連する言葉に、無意識に親和性を持っていたことがわかりました。
- これは、AI が「人間に好かれるように訓練される前」に、すでに**「生まれ持った価値観のバイアス」**を背負っていることを意味します。
AI の「隠れた声」を聞く
- 研究者たちは、AI が「次の言葉として何を選びたがっているか」を計算する「隠れた報酬」という仕組みを発見しました。これを使うと、AI が「自由」を好むか「愛」を好むかが、数値として明確に現れました。
- なんと、AI のサイズ（頭の大きさ）が大きくなればなるほど、この「自由 vs 愛」の差はより鮮明になることがわかりました。

🚨 私たちにとっての教訓

この研究は、AI 開発者や社会全体に重要なメッセージを送っています。

「後付けの修正」には限界がある
- AI が危険なことをしないように、後から「安全フィルター」や「人間へのフィードバック」を入れるだけでは不十分です。なぜなら、その AI の「根底にある性格（前学習）」が、すでに特定の価値観（例えば、個人主義か、集団主義か）に偏っているからです。
「ベースモデル」の選び方は、価値観の選択
- 開発者が「どの AI をベースにするか」を選ぶことは、単に「性能が良いか」だけでなく、「どのような価値観を持つ AI を作りたいか」という倫理的な選択でもあります。
安全は「最初」から考える必要がある
- AI の安全性や道徳観は、教育（微調整）の段階だけでなく、**「前学習（データを集めて学習する最初の一歩）」**の段階から慎重に設計する必要があります。

🌟 まとめ

この論文は、**「AI もまた、その『生まれ』によって性格が作られており、後からいくらしつけても、その根本的な性格（価値観）は簡単には変えられない」**ということを教えてくれました。

AI を安全で人間に優しいものにするためには、単に「良い子に育てる（微調整する）」だけでなく、**「どんな親（ベースモデル）から産み出すか」**という、もっと根本的な部分から考え直す必要があるのです。

Each language version is independently generated for its own context, not a direct translation.

論文「REWARD MODELS INHERIT VALUE BIASES FROM PRETRAINING」の技術的サマリー

この論文は、大規模言語モデル（LLM）の人間との価値観の整合（Alignment）において中心的な役割を果たす報酬モデル（Reward Models: RMs）が、そのベースとなる事前学習済みモデル（Pretrained LLMs）から価値バイアスを継承することを実証した研究です。特に、Llama 系と Gemma 系という異なるベースモデルを元にした RMs が、人間の心理学的な価値軸において体系的な偏り（バイアス）を示すことを明らかにしました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義 (Problem)

Reward Models (RMs) は、RLHF（人間からのフィードバックによる強化学習）や DPO（直接選好最適化）などの手法を通じて、LLM の出力を人間の好みに合わせるために不可欠なコンポーネントです。しかし、RMs 自体がどのようにバイアスを獲得するかについては、事前学習済みモデルや微調整済みモデルに比べて研究が不足していました。

核心的な疑問: RMs は人間からの選好データに基づいて微調整されますが、それらは初期化時に特定の LLM（ベースモデル）から始まります。このベースモデルの事前学習（Pretraining）段階で獲得された表現や価値観が、RMs の最終的な出力にどの程度影響を与えるのか？
仮説: RMs は単なる「人間の選好の鏡」ではなく、ベースモデルの事前学習データに埋め込まれた価値観（バイアス）を強く継承しており、それが微調整プロセスによっても完全に消去されない可能性がある。

2. 手法 (Methodology)

著者らは、10 種類の主要なオープンウェイト RMs（RewardBench に掲載されているもの）と、それらのベースモデル（Llama 3.2, Gemma 2 など）を対象に、以下の多角的なアプローチで分析を行いました。

2.1 包括的トークン探索 (Exhaustive Token Search)

手法: 特定の価値観に関連するプロンプト（例：「史上最も偉大なことは何か？」）に対して、RMs の語彙全体（トークン辞書）に対してスコアを計算し、最も高得点・低得点のトークンを特定します。
目的: RMs がどのような単語を「好む（高評価）」または「嫌う（低評価）」かを網羅的に評価し、ベースモデルによる違いを定量化します。

2.2 心理言語学コーパスの活用

Big Two (Agency vs. Communion): 心理学で確立された「主体性（Agency: 個人の達成、自由、能力）」と「共融性（Communion: 他者との関係、愛、家族）」という 2 つの主要な価値軸を用います。
Moral Foundations Dictionary (MFD2): 権威、ケア、公平性、忠誠、聖性（純潔）の 5 つの道徳的基盤を評価します。
これらのコーパスに含まれる単語の RMs によるランキングを比較し、ベースモデルごとのバイアスを統計的に検出しました。

2.3 暗黙的報酬モデル (Implicit Reward Models) の導出

理論的枠組み: RLHF の数学的定式化に基づき、2 つの異なるモデル（例：Llama と Gemma）の対数確率（Log Probabilities）の差分を「暗黙的な報酬モデル」として解釈します。
- 数式: $r_{1 \to 2}(x, y) \propto \log \pi_2(y|x) - \log \pi_1(y|x)$
MWLR (Mixture-Weighted Log-Ratio): 低確率トークンのノイズを排除し、実用的なスコアを得るため、混合分布で重み付けした対数尤度比（MWLR）を提案・採用しました。これにより、ベースモデル間の価値観の差を「報酬モデル」として直接可視化・分析しました。

2.4 制御実験による微調整ダイナミクスの追跡

実験設定: Llama 3.2 3B と Gemma 2 2B をベースに、同一のデータセット（Skywork, Unified Feedback）と同一のハイパーパラメータで RMs をゼロからトレーニングしました。
アブレーション: データソースやデータ量（13k〜106k 選好ペア）を変化させ、ベースモデル由来のバイアスがどの程度「洗い流せる（wash out）」かを検証しました。

3. 主要な結果 (Key Results)

3.1 ベースモデルによる体系的なバイアスの存在

Llama 系 RMs: 「主体性（Agency）」に関連する単語（Freedom, Success, Capability など）を高く評価し、「共融性（Communion）」を低く評価する傾向があります。
Gemma 系 RMs: 「共融性（Communion）」に関連する単語（Love, Family, Friendship など）を高く評価し、「主体性」を低く評価する傾向があります。
この傾向は、同じ開発者、同じ選好データ、同じ微調整プロセスであっても、ベースモデルが異なるだけで反転します。これは RewardBench に掲載されている 10 種類の RMs 全体で再現されました。

3.2 バイアスの起源は事前学習段階にある

指示微調整済みモデル (Instruction-Tuned): ベースモデルの指示微調整版（Llama 3.2 Instruct, Gemma 2 IT）においても、同じバイアスパターンが観察されました。
事前学習済みモデル (Pretrained): 指示微調整前の純粋な事前学習モデル（Llama 3.2, Gemma 2）の対数確率を分析しても、同様のバイアスが確認されました。
結論: このバイアスは微調整プロセスで生じたものではなく、事前学習（Pretraining）段階でモデルに埋め込まれたものであることが示されました。

3.3 暗黙的報酬モデルによる検証

MWLR スコアを用いて「Gemma をベースに微調整して Llama の挙動に近づけるにはどのような報酬が必要か」を計算したところ、最適トークンが「Freedom（自由）」、最悪トークンが「Love（愛）」となり、Llama と Gemma の価値観の対立が明確に可視化されました。
このバイアスはモデルサイズ（1B〜70B）やバージョン（Llama 3.0〜3.2, Gemma 2 2B〜27B）を超えて普遍的に存在し、むしろモデルサイズが大きくなるほど差が拡大する傾向が見られました。

3.4 微調整によるバイアスの軽減限界

トレーニング中のダイナミクス: 微調整の初期段階ではベースモデルのバイアスが強く現れますが、トレーニングが進むにつれて Llama 系は共融性を、Gemma 系は主体性を少し評価するようになります（相互収束）。
不完全な解消: しかし、10 万ペア以上の選好データを用いたとしても、ベースモデル間のバイアス差は完全に消滅せず、一定の差（Gap）が残存することが確認されました。
Qwen 系の実験: Qwen ベースの RM を同様にトレーニングしたところ、Gemma/Llama 間の差は縮小しましたが、Qwen と他のモデル間の差は縮小せず、バイアスが非常に頑固であることが示唆されました。

4. 主要な貢献 (Key Contributions)

新しい解釈可能性手法の開発: 心理言語学ツールを組み合わせた「包括的トークン探索」を用い、RMs の価値バイアスを定量化する手法を確立しました。
実世界の RMs におけるバイアスの実証: 野外（Wild）で利用されている主要な RMs が、ベースモデルに応じて体系的な価値観の違い（Agency vs. Communion）を示すことを初めて実証しました。
バイアスの起源の特定: このバイアスがベースモデルの対数確率、ひいては事前学習段階に由来することを追跡し、証明しました。
暗黙的報酬モデルの定式化: 2 つのモデルの対数確率の差分を「暗黙的報酬」として定式化し、それが明示的な RMs と同様のバイアスパターンを持つことを示しました。
継承バイアスの再現性と耐久性: 制御実験を通じて、データソースや量を制御してもバイアスが再現され、かつ十分なデータ量でも完全に除去できない「耐久性」を示しました。

5. 意義と結論 (Significance & Conclusion)

安全性とアライメントの新たな視点: 従来の RLHF や微調整は、モデルのスタイルや有害なコンテンツの回避には有効ですが、事前学習データに埋め込まれた根本的な価値観（道徳的直感）を完全に上書きすることは困難であることを示しました。
ベースモデル選択の重要性: オープンソース開発者にとって、ベースモデルの選択は単なる「性能（Performance）」の問題ではなく、「価値観（Values）」の選択であることを明確にしました。
将来の課題: 安全な AI を構築するためには、RLHF 段階だけでなく、事前学習段階でのデータフィルタリングや、より大規模な選好データ、あるいはバイアスを軽減するための新しい手法の開発が不可欠です。

この研究は、「報酬モデルは白紙（Tabula Rasa）ではなく、その基盤となる LLM の価値観を強く継承している」という重要な知見を提供し、AI 安全性研究における事前学習の重要性を再認識させるものです。

Reward Models Inherit Value Biases from Pretraining