Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

本論文は、RAG 環境における実用的な質問応答ペアを用いた大規模なモデル比較を通じて、LLM を評価者として活用する際、同一入力に対してもモデルや温度設定によってスコアに大きなばらつきが生じることを実証し、生産環境での信頼性確保には監視やハイブリッド評価戦略の必要性を指摘しています。

Fiona Lau

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 先生が採点するテスト」**についての実験報告書です。

最近、企業や研究では「AI に AI の回答を評価させる(LLM-as-a-judge)」というやり方が流行っています。しかし、この論文は**「同じ問題に、同じ AI 先生が採点しても、毎回点数がバラバラになってしまう」**という意外な事実を突き止めました。

まるで、**「同じ料理を、同じシェフが作っても、味見するたびに『美味しい』と『まずい』を繰り返す」**ようなものです。

以下に、この研究の核心をわかりやすく解説します。


🍳 実験の舞台:「AI 採点システム」のテスト

研究者たちは、ある企業のチャットボット(AI 助手)から実際の質問と回答を集めました。そして、5 種類の有名な AI(GPT-4o, Gemini, Claude など)に、以下の 3 つの基準で「0 点〜1 点」の採点をさせました。

  1. 関連性:質問にちゃんと答えているか?
  2. 正確性:情報が事実と合っているか?
  3. 網羅性:必要な情報がすべて含まれているか?

さらに、AI の「気分」を変える設定(Temperature:温度設定)を 2 種類(0 と 1)に変えて実験しました。

  • 温度 0:AI を「冷静沈着」な状態にする(理論上は毎回同じ答えが出るはず)。
  • 温度 1:AI を「少しわくわくさせて」創造的にさせる(答えが変わりやすくなる)。

🔍 発見された 3 つの驚きの事実

1. 「冷静な AI」でも、点数は揺れる(RQ1)

「温度 0」に設定すれば、AI は毎回同じ答えを出すはずだと思われていました。しかし、実際にはそうではありませんでした。

  • たとえ話:同じ料理を、同じシェフが「冷静に」作っても、味見するたびに「塩味が少し違う」「少し甘すぎる」と感じ取り、点数がコロコロ変わってしまいます。
  • 特に**「網羅性(必要な情報が全部入っているか)」**という基準で、点数のバラつきが最も大きかったです。

2. AI によって「採点の厳しさ」が違う(RQ2)

同じ回答に対して、異なる AI 家族(GPT 社、Google 社、Anthropic 社など)が採点すると、点数が全く違いました。

  • たとえ話:ある生徒の作文を、3 人の先生が採点するとします。
    • 先生 A(GPT):「よく書けているね!80 点!」
    • 先生 B(Claude):「これは質問の意図とズレている。0 点!」
    • 先生 C(Gemini):「完璧に説明されている。100 点!」
  • 回答は同じなのに、先生(AI)の「ものの見方」や「厳しさ」が違うため、同じ回答が「合格」にも「不合格」にもなり得ます。

3. 「冷静にさせる」設定は万能ではない(RQ3)

「温度を 0 にすれば安定する」と思われがちですが、AI によって効果が全然違いました。

  • GPT や Gemini:温度を 0 にすると、点数が安定する傾向がありました(冷静になると、採点が一定になる)。
  • Claude:温度を 0 にしても、点数のバラつきはほとんど減りませんでした。むしろ、ある基準では不安定さが残ったままです。
  • 結論:「冷静にさせるスイッチ」をオンにしても、AI の「性格(アーキテクチャ)」によっては、まだムラがあるのです。

⚠️ なぜこれが問題なのか?

この研究は、ビジネス現場に大きな警鐘を鳴らしています。

  • 不公平な扱い:もし、AI の採点結果で「顧客の問い合わせを優先処理するか」を決めていると、**「同じ問い合わせなのに、AI の気分(ランダム性)によって、対応のスピードが変わってしまう」**可能性があります。
  • 信頼性の欠如:「昨日は合格だったのに、今日は不合格」ということが起きれば、システムを信頼できなくなります。

💡 私たちが何をすべきか?

この論文は、**「AI 先生は完璧ではない」**と教えてくれます。

  1. 1 回だけの採点を信じるな:重要な判断をするなら、AI に何度も採点させ、その「平均点」や「バラつき(標準偏差)」を見る必要があります。
  2. 人間のチェックを入れる:AI だけで全てを決めず、最終的には人間が確認する「ハイブリッドなシステム」が安全です。
  3. AI の「性格」を知る:どの AI を使うかによって、採点の癖が違うことを理解し、それに合わせた対策が必要です。

🌟 まとめ

この論文は、**「AI は魔法の箱ではなく、人間と同じように『ムラ』がある存在」**だと教えてくれました。

AI を採点役として使うのは便利ですが、**「同じ入力なのに、結果が毎回違う」**という性質を無視してはいけません。企業や社会が AI を使うときは、その「揺らぎ」を許容し、対策を講じながら慎重に進める必要があるのです。