Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 先生が採点するテスト」**についての実験報告書です。

最近、企業や研究では「AI に AI の回答を評価させる（LLM-as-a-judge）」というやり方が流行っています。しかし、この論文は**「同じ問題に、同じ AI 先生が採点しても、毎回点数がバラバラになってしまう」**という意外な事実を突き止めました。

まるで、**「同じ料理を、同じシェフが作っても、味見するたびに『美味しい』と『まずい』を繰り返す」**ようなものです。

以下に、この研究の核心をわかりやすく解説します。

🍳 実験の舞台：「AI 採点システム」のテスト

研究者たちは、ある企業のチャットボット（AI 助手）から実際の質問と回答を集めました。そして、5 種類の有名な AI（GPT-4o, Gemini, Claude など）に、以下の 3 つの基準で「0 点〜1 点」の採点をさせました。

関連性：質問にちゃんと答えているか？
正確性：情報が事実と合っているか？
網羅性：必要な情報がすべて含まれているか？

さらに、AI の「気分」を変える設定（Temperature：温度設定）を 2 種類（0 と 1）に変えて実験しました。

温度 0：AI を「冷静沈着」な状態にする（理論上は毎回同じ答えが出るはず）。
温度 1：AI を「少しわくわくさせて」創造的にさせる（答えが変わりやすくなる）。

🔍 発見された 3 つの驚きの事実

1. 「冷静な AI」でも、点数は揺れる（RQ1）

「温度 0」に設定すれば、AI は毎回同じ答えを出すはずだと思われていました。しかし、実際にはそうではありませんでした。

たとえ話：同じ料理を、同じシェフが「冷静に」作っても、味見するたびに「塩味が少し違う」「少し甘すぎる」と感じ取り、点数がコロコロ変わってしまいます。
特に**「網羅性（必要な情報が全部入っているか）」**という基準で、点数のバラつきが最も大きかったです。

2. AI によって「採点の厳しさ」が違う（RQ2）

同じ回答に対して、異なる AI 家族（GPT 社、Google 社、Anthropic 社など）が採点すると、点数が全く違いました。

たとえ話：ある生徒の作文を、3 人の先生が採点するとします。
- 先生 A（GPT）：「よく書けているね！80 点！」
- 先生 B（Claude）：「これは質問の意図とズレている。0 点！」
- 先生 C（Gemini）：「完璧に説明されている。100 点！」
回答は同じなのに、先生（AI）の「ものの見方」や「厳しさ」が違うため、同じ回答が「合格」にも「不合格」にもなり得ます。

3. 「冷静にさせる」設定は万能ではない（RQ3）

「温度を 0 にすれば安定する」と思われがちですが、AI によって効果が全然違いました。

GPT や Gemini：温度を 0 にすると、点数が安定する傾向がありました（冷静になると、採点が一定になる）。
Claude：温度を 0 にしても、点数のバラつきはほとんど減りませんでした。むしろ、ある基準では不安定さが残ったままです。
結論：「冷静にさせるスイッチ」をオンにしても、AI の「性格（アーキテクチャ）」によっては、まだムラがあるのです。

⚠️ なぜこれが問題なのか？

この研究は、ビジネス現場に大きな警鐘を鳴らしています。

不公平な扱い：もし、AI の採点結果で「顧客の問い合わせを優先処理するか」を決めていると、**「同じ問い合わせなのに、AI の気分（ランダム性）によって、対応のスピードが変わってしまう」**可能性があります。
信頼性の欠如：「昨日は合格だったのに、今日は不合格」ということが起きれば、システムを信頼できなくなります。

💡 私たちが何をすべきか？

この論文は、**「AI 先生は完璧ではない」**と教えてくれます。

1 回だけの採点を信じるな：重要な判断をするなら、AI に何度も採点させ、その「平均点」や「バラつき（標準偏差）」を見る必要があります。
人間のチェックを入れる：AI だけで全てを決めず、最終的には人間が確認する「ハイブリッドなシステム」が安全です。
AI の「性格」を知る：どの AI を使うかによって、採点の癖が違うことを理解し、それに合わせた対策が必要です。

🌟 まとめ

この論文は、**「AI は魔法の箱ではなく、人間と同じように『ムラ』がある存在」**だと教えてくれました。

AI を採点役として使うのは便利ですが、**「同じ入力なのに、結果が毎回違う」**という性質を無視してはいけません。企業や社会が AI を使うときは、その「揺らぎ」を許容し、対策を講じながら慎重に進める必要があるのです。

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

🍳 実験の舞台：「AI 採点システム」のテスト

🔍 発見された 3 つの驚きの事実

1. 「冷静な AI」でも、点数は揺れる（RQ1）

2. AI によって「採点の厳しさ」が違う（RQ2）

3. 「冷静にさせる」設定は万能ではない（RQ3）

⚠️ なぜこれが問題なのか？

💡 私たちが何をすべきか？

🌟 まとめ

論文要約：同一入力に対する異なるスコア：LLM ジャッジの不一致性に関するマルチモデル研究

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

RQ1: モデル内のスコア一貫性（同一質問の繰り返し評価）

RQ2: モデル間のスコア差異（同一入力に対する異なるモデルの評価）

RQ3: 温度設定の影響

5. 意義と結論 (Significance & Conclusion)

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

🍳 実験の舞台：「AI 採点システム」のテスト

🔍 発見された 3 つの驚きの事実

1. 「冷静な AI」でも、点数は揺れる（RQ1）

2. AI によって「採点の厳しさ」が違う（RQ2）

3. 「冷静にさせる」設定は万能ではない（RQ3）

⚠️ なぜこれが問題なのか？

💡 私たちが何をすべきか？

🌟 まとめ

論文要約：同一入力に対する異なるスコア：LLM ジャッジの不一致性に関するマルチモデル研究

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

RQ1: モデル内のスコア一貫性（同一質問の繰り返し評価）

RQ2: モデル間のスコア差異（同一入力に対する異なるモデルの評価）

RQ3: 温度設定の影響

5. 意義と結論 (Significance & Conclusion)

関連論文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers