Diverging Preferences: When do Annotators Disagree and do Models Know?

この論文は、人間の評価データにおける不一致が単なるノイズではなくタスクの未定義や回答スタイルなど多様な要因に起因することを示し、従来の報酬モデルや評価手法の限界を指摘するとともに、多様な選好を特定・軽減する手法を提案するものである。

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 問題の正体:「味」は人それぞれなのに、AI は「正解」を一つだけ決めようとしている

AI を育てる際、人間に「この回答 A と B、どっちがいい?」と聞いて、その答えを AI に学習させます(これを「人間からのフィードバック」や「報酬モデル」と呼びます)。

しかし、ここで大きな問題が起きました。
**「人間同士でも、どっちがいいか意見が割れる(分かれる)ことが、実は非常に多い」**のです。

  • 例え話:
    料理屋さんに「このカレー、辛くしたほうがいいか、甘くしたほうがいいか?」と 100 人の客に聞くと、
    • 50 人は「辛くして!」
    • 50 人は「甘くして!」
      という結果になったとしましょう。

これまでの AI の勉強法は、**「多数決で勝った方(辛口)を『正解』だと決めつけ、AI にそれを覚えさせよう」**としていました。
でも、これだと「甘口が好きな人」にとって、AI は「自分の好みを無視した、偏った料理屋」になってしまいます。

この論文は、「意見が割れること」を単なる『ミス』や『ノイズ』ではなく、『人間の多様な好み(多様性)』そのものだと捉え直すべきだと主張しています。

2. なぜ意見が割れるのか?(10 の理由)

研究者たちは、なぜ人間が意見で揉めるのかを詳しく分析し、10 のパターンに分類しました。主な理由は以下の通りです。

  • 指示が曖昧すぎる: 「ポストグレスサーバーになりきって」と言われても、「本物のサーバーの真似事をするのか、それともキャラクターになりきって会話するのか」で意見が割れます。
  • 長さの好み: 「詳しく説明してほしい人」と「短く要点だけ欲しい人」がいます。
  • フォーマット: 「箇条書きがいい人」と「文章でつなぐのがいい人」がいます。
  • 安全と拒絶: 「危険な質問には断るべき」という人と、「でも、どうして断るのか理由を詳しく教えてほしい」という人がいます。
  • 美的センス: 詩的な表現が好きな人と、事実だけを淡々と伝えるのが好きな人がいます。

重要な発見:
意見が割れる原因の75% 以上は「人間の好みの違い」であり、単なる「間違い」や「ミス」ではありません。つまり、「正解が一つしかない」という前提自体が間違っていたのです。

3. 従来の AI はどう失敗したか?

これまでの AI は、意見が割れているケースでも、無理やり「どちらか一方」を正解として学習してしまいました。
これでは、「多様な価値観(プラリズム)」を尊重する AIには育たず、特定の層(多数派)の意見しか反映されない偏った AI になってしまいます。

また、AI の評価を行う際(「LLM-as-Judge」と呼ばれる、AI が AI を採点する仕組み)も、「意見が割れている問題」に対して、無理やり勝者を決めてしまう傾向がありました。
例えば、「安全のために断った AI」に対して、「もっと詳しく答えるべきだった」と採点して減点してしまうなど、「正解が一つではない状況」を正しく評価できていませんでした。

4. 新しい解決策:「分布(ばらつき)」を教える

この論文が提案する新しい方法は、「正解を一つ決める」のではなく、「意見の広がり(分布)」を AI に教えるというものです。

  • 従来の方法: 「このカレーは 8 点(正解)!」と教える。
  • 新しい方法: 「このカレーは、辛口好きな人には 9 点、甘口好きな人には 3 点。だから、**『意見が割れている(ばらつきが大きい)』**という状態そのものを理解しなさい」と教える。

これにより、AI は「あ、この質問は人によって答え方が違うんだな」と理解できるようになります。
結果として、「意見が割れている問題」を特定し、無理に正解を決めずに、適切な対応(例:「どちらの好みに合わせて答えますか?」と聞く、あるいは「安全のために断る」)ができる AIを作れるようになります。

5. 具体的な成果:「分断される問題」を排除する

研究者たちは、この新しい AI を使って、既存の AI 評価ベンチマーク(テスト問題集)を分析しました。
すると、「意見が割れている問題」が含まれていると、評価が不公平になることがわかりました。

  • 対策: 新しい AI を使って、「意見が割れている問題(分断的な問題)」をテスト問題集から自動的に見つけ出し、取り除く提案をしています。
  • 効果: これにより、特定の意見に偏らず、多様なユーザーのニーズに応えられる「公平な AI」の評価が可能になります。

まとめ:この論文が伝えたいこと

この論文は、**「AI に『正解』を教えるとき、人間の意見が割れることは『エラー』ではなく『多様性』の現れ」**だと教えてくれます。

これまでの AI は「多数決で勝った方」だけを正解にしていましたが、これからは**「意見が割れていること自体を認識し、多様な価値観をすべて受け入れること」**ができる AI を作ろう、という新しい道を示しています。

まるで、「全員が同じ味を好む料理屋」から、「客の好みに合わせて味を変えられる、器用な料理屋」へと、AI の進化を促す重要な一歩と言えるでしょう。