Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

1. 問題の正体：「味」は人それぞれなのに、AI は「正解」を一つだけ決めようとしている

AI を育てる際、人間に「この回答 A と B、どっちがいい？」と聞いて、その答えを AI に学習させます（これを「人間からのフィードバック」や「報酬モデル」と呼びます）。

しかし、ここで大きな問題が起きました。
**「人間同士でも、どっちがいいか意見が割れる（分かれる）ことが、実は非常に多い」**のです。

例え話：
料理屋さんに「このカレー、辛くしたほうがいいか、甘くしたほうがいいか？」と 100 人の客に聞くと、
- 50 人は「辛くして！」
- 50 人は「甘くして！」
  という結果になったとしましょう。

これまでの AI の勉強法は、**「多数決で勝った方（辛口）を『正解』だと決めつけ、AI にそれを覚えさせよう」**としていました。
でも、これだと「甘口が好きな人」にとって、AI は「自分の好みを無視した、偏った料理屋」になってしまいます。

この論文は、「意見が割れること」を単なる『ミス』や『ノイズ』ではなく、『人間の多様な好み（多様性）』そのものだと捉え直すべきだと主張しています。

2. なぜ意見が割れるのか？（10 の理由）

研究者たちは、なぜ人間が意見で揉めるのかを詳しく分析し、10 のパターンに分類しました。主な理由は以下の通りです。

指示が曖昧すぎる： 「ポストグレスサーバーになりきって」と言われても、「本物のサーバーの真似事をするのか、それともキャラクターになりきって会話するのか」で意見が割れます。
長さの好み： 「詳しく説明してほしい人」と「短く要点だけ欲しい人」がいます。
フォーマット： 「箇条書きがいい人」と「文章でつなぐのがいい人」がいます。
安全と拒絶： 「危険な質問には断るべき」という人と、「でも、どうして断るのか理由を詳しく教えてほしい」という人がいます。
美的センス： 詩的な表現が好きな人と、事実だけを淡々と伝えるのが好きな人がいます。

重要な発見：
意見が割れる原因の75% 以上は「人間の好みの違い」であり、単なる「間違い」や「ミス」ではありません。つまり、「正解が一つしかない」という前提自体が間違っていたのです。

3. 従来の AI はどう失敗したか？

これまでの AI は、意見が割れているケースでも、無理やり「どちらか一方」を正解として学習してしまいました。
これでは、「多様な価値観（プラリズム）」を尊重する AIには育たず、特定の層（多数派）の意見しか反映されない偏った AI になってしまいます。

また、AI の評価を行う際（「LLM-as-Judge」と呼ばれる、AI が AI を採点する仕組み）も、「意見が割れている問題」に対して、無理やり勝者を決めてしまう傾向がありました。
例えば、「安全のために断った AI」に対して、「もっと詳しく答えるべきだった」と採点して減点してしまうなど、「正解が一つではない状況」を正しく評価できていませんでした。

4. 新しい解決策：「分布（ばらつき）」を教える

この論文が提案する新しい方法は、「正解を一つ決める」のではなく、「意見の広がり（分布）」を AI に教えるというものです。

従来の方法： 「このカレーは 8 点（正解）！」と教える。
新しい方法： 「このカレーは、辛口好きな人には 9 点、甘口好きな人には 3 点。だから、**『意見が割れている（ばらつきが大きい）』**という状態そのものを理解しなさい」と教える。

これにより、AI は「あ、この質問は人によって答え方が違うんだな」と理解できるようになります。
結果として、「意見が割れている問題」を特定し、無理に正解を決めずに、適切な対応（例：「どちらの好みに合わせて答えますか？」と聞く、あるいは「安全のために断る」）ができる AIを作れるようになります。

5. 具体的な成果：「分断される問題」を排除する

研究者たちは、この新しい AI を使って、既存の AI 評価ベンチマーク（テスト問題集）を分析しました。
すると、「意見が割れている問題」が含まれていると、評価が不公平になることがわかりました。

対策： 新しい AI を使って、「意見が割れている問題（分断的な問題）」をテスト問題集から自動的に見つけ出し、取り除く提案をしています。
効果： これにより、特定の意見に偏らず、多様なユーザーのニーズに応えられる「公平な AI」の評価が可能になります。

まとめ：この論文が伝えたいこと

この論文は、**「AI に『正解』を教えるとき、人間の意見が割れることは『エラー』ではなく『多様性』の現れ」**だと教えてくれます。

これまでの AI は「多数決で勝った方」だけを正解にしていましたが、これからは**「意見が割れていること自体を認識し、多様な価値観をすべて受け入れること」**ができる AI を作ろう、という新しい道を示しています。

まるで、「全員が同じ味を好む料理屋」から、「客の好みに合わせて味を変えられる、器用な料理屋」へと、AI の進化を促す重要な一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

この論文「Diverging Preferences: When do Annotators Disagree and do Models Know?（分岐する選好：アノテーターはいつ、なぜ意見が異なり、モデルはそれを理解しているか？）」は、大規模言語モデル（LLM）の人間選好学習（RLHF）における「アノテーター間の意見不一致」の性質と、それが現在の評価・学習手法に与える影響を体系的に分析した研究です。

以下に、問題定義、手法、主要な貢献、結果、そして意義について詳細にまとめます。

1. 問題定義 (Problem)

LLM の開発において、人間選好データに基づいた報酬モデル（Reward Model）の学習や「LLM-as-Judge（LLM を裁判官とした評価）」は標準的な手法となっています。しかし、これらの手法には以下の根本的な仮定と課題が存在します。

ノイズ仮定の誤り: 従来の RLHF パイプラインでは、アノテーター間の不一致は単なる「ノイズ（エラー）」として扱われ、多数決などで集約して単一の正解（Chosen）と不正解（Rejected）を導き出します。
多様性の欠如: 実際には、不一致は単なるエラーではなく、タスクの曖昧さ、回答スタイル、個人の好み、安全性への解釈の違いなど、正当な多様な視点（Pluralistic Preferences） に起因するものです。
モデルの限界: 標準的な報酬モデルや LLM-as-Judge は、これらの「分岐する選好（Diverging Preferences）」を区別できず、強制的に一つの回答を「勝者」として選定してしまいます。これにより、特定の視点に偏ったモデルが訓練されたり、多様なユーザーの要望に応える「多様性整合（Pluralistically Aligned）」モデルが不当に低く評価されたりするリスクがあります。

2. 手法とデータ (Methodology & Data)

著者らは、この問題を解明するために以下のアプローチを採用しました。

データセットの構築と分析:
- 既存のデータセット（MultiPref と HelpSteer2）から、アノテーター間の個別注釈を再解放・分析しました。
- これらのデータセットにおいて、約 30%（MultiPref）〜24%（HelpSteer2）の事例でアノテーター間の不一致が発生していることを確認しました。
不一致の分類体系（Taxonomy）の作成:
- 10 のカテゴリと 4 つの上位クラスにわたる分類体系を開発しました（表 1 参照）。
- 主要な不一致要因:
  - タスクの未定義（Task Underspecification）: プロンプトが曖昧で、複数の解釈が可能。
  - 回答スタイル（Response Style）: 詳述度（Verbosity）、フォーマット、美的好み（Aesthetic Taste）、複雑さ（Complexity）への好みの違い。
  - 拒否（Refusals）: 安全性や能力に関する拒否の判断基準の違い（「拒否 vs 拒否」や「同意 vs 拒否」）。
  - エラー: ハルシネーションや degenerate outputs。
- 分析の結果、不一致の 75% 以上は「アノテーターのエラー」ではなく、「個人の好みや視点の違い」に起因することが判明しました。
提案手法：分布型報酬モデル（Distributional Reward Models）
- 従来の単一値（Scalar）の報酬予測ではなく、報酬を確率分布としてモデル化します。
- Mean-Var Reward Models (KL): 各回答の報酬を正規分布 $N(\mu, \sigma^2)$ として予測します。ここで、 $\mu$ は平均的な選好、 $\sigma^2$ はアノテーター間の不一致（分岐度）を表します。
- 訓練には KL 発散損失（KL-Divergence loss）を使用し、アノテーターの全ラベルを分布として学習します。
評価ベンチマークの改善:
- 既存の LLM-as-Judge ベンチマーク（WildBench など）において、分布型報酬モデルを用いて「分岐する選好（Divisive Examples）」を特定し、それらを除去する手法を提案しました。

3. 主要な結果 (Key Results)

標準的手法の失敗:
- Bradley-Terry 法や MSE 回帰を用いた標準的な報酬モデルは、アノテーター間の不一致がある場合でも、高一致（High-Agreement）の場合と同様に、明確な「勝者」を予測してしまいます（表 2）。これにより、多様な視点を無視したモデルが学習されてしまいます。
- LLM-as-Judge も同様に、不一致があるケースでも 70% 以上で勝者を選定しており、多様な回答戦略（例：曖昧な質問への「確認」や「安全上の拒否」）を不当に罰するバイアスを持っていることが示されました（表 4, 5）。
分布型報酬モデルの有効性:
- 提案した分布型報酬モデル（Mean-Var KL）は、単一値モデルと比較して、不一致を識別する能力（Diverging ID AUROC）が大幅に向上しました（0.16 の改善）。
- このモデルは、回答の「平均的な質（ $\mu$ ）」と「分岐度（ $\sigma^2$ ）」を同時に学習でき、どの回答が特定の視点に偏っているかを検出できます（表 3）。
評価ベンチマークへの影響:
- WildBench において、分布型モデルを用いて「分岐するプロンプト」を特定したところ、上位 5% の事例の多くが「同意 vs 拒否」や「タスクの未定義」に関連していました。
- これらの事例では、LLM-as-Judge が「安全上の拒否」や「確認を促す回答」を不当に低く評価する傾向が確認されました。

4. 貢献 (Contributions)

不一致の性質の解明: 人間選好データにおける不一致の大部分は「ノイズ」ではなく、正当な「多様な視点」に起因することを実証し、その詳細な分類体系を提示した。
分布型報酬モデルの提案: アノテーター間の不一致を「分散（Variance）」としてモデル化し、分岐する選好を識別できる新しい報酬モデル手法を提案した。
評価バイアスの指摘と解決策: 既存の LLM-as-Judge 評価が、多様性整合されたモデルや一貫したポリシーを持つモデルを不当に罰していることを示し、分布型モデルを用いて問題のある事例を特定・除去する手法を提案した。

5. 意義 (Significance)

この研究は、LLM の開発と評価における重要なパラダイムシフトを提唱しています。

多様性整合（Pluralistic Alignment）の促進: 単一の「正解」を追求するのではなく、異なるユーザーの価値観や背景を尊重するモデルの訓練を可能にします。
評価の公平性向上: 特定の回答スタイル（例：長文、特定の拒否形式）にバイアスがかかった評価を是正し、より公平なベンチマーク設計の指針を提供します。
実用的なアプローチ: 追加のアノテーションコストをかけずに、既存のデータから不一致を特定し、よりロバストな RLHF パイプラインを構築するための具体的な手法（分布型報酬モデル）を提示しています。

結論として、この論文は「不一致を排除すべきノイズ」ではなく「学習すべき多様性」として捉え直す必要性を説き、より公平で多様なユーザーニーズに応える次世代 LLM の開発に向けた道筋を示しています。

Diverging Preferences: When do Annotators Disagree and do Models Know?

1. 問題の正体：「味」は人それぞれなのに、AI は「正解」を一つだけ決めようとしている

2. なぜ意見が割れるのか？（10 の理由）

3. 従来の AI はどう失敗したか？

4. 新しい解決策：「分布（ばらつき）」を教える

5. 具体的な成果：「分断される問題」を排除する

まとめ：この論文が伝えたいこと

1. 問題定義 (Problem)

2. 手法とデータ (Methodology & Data)

3. 主要な結果 (Key Results)

4. 貢献 (Contributions)

5. 意義 (Significance)

関連論文

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis