Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

SWE-bench における大規模言語モデルエージェントの研究は、一貫性が必ずしも正確性を保証するものではなく、誤った解釈を一貫して繰り返すことで失敗を増幅する可能性を示し、実運用においては実行の一貫性よりも解釈の正確性が重要であることを明らかにしています。

Aman Mehta

公開日 2026-03-30
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(特に大規模言語モデル)が「同じ仕事」を何度もやらせると、毎回同じように動くのか、それともバラバラになるのかを調査したものです。

結論を一言で言うと、**「AI が毎回同じ行動をとる(一貫性がある)ことは、必ずしも『正しい』という意味ではない」**という、少し意外な発見がありました。

これをわかりやすく、日常の例え話を使って解説します。


🕵️‍♂️ 物語:3 人の探偵と 10 の事件

この研究では、**「SWE-bench」**という、複雑なプログラミングのバグ(不具合)を直すという「事件」を 10 件用意しました。そして、その事件を解決するために、3 人の異なる探偵(AI モデル)に調査を依頼しました。

  1. クラウデ(Claude):慎重で、徹底的に調べる「名探偵」。
  2. GPT-5:スピード重視で、さっと動く「俊足探偵」。
  3. ラマ(Llama):まだ修行中の「新人探偵」。

それぞれに 5 回ずつ同じ事件を解決してもらい、その結果を分析しました。

🔍 発見 1:「一貫性」と「正解」の関係

まず、驚くべき事実がわかりました。

  • クラウデは、5 回ともほぼ同じ手順で事件を解決しました(一貫性が高い)。そして、**正解率も 58%**と最も高かったです。
  • ラマは、5 回とも全く違う手順で動きました(一貫性が低い)。そして、**正解率は 4%**と最悪でした。
  • GPT-5は、その中間でした。

**「一貫性が高い=優秀」**というイメージは、この時点では正しそうですよね?でも、ここからが本題です。

⚠️ 発見 2:「一貫性」は「間違い」も増幅する

ここで、クラウデの「失敗した 5 回」を詳しく見てみると、ある恐ろしいパターンが見つかりました。

「同じ間違いを、5 回とも同じように繰り返していた」

例えば、「犯人は A だ」という間違った仮説を立てた場合、クラウデは「A だ!」と確信して、5 回とも A を追いかけるために同じ道を進み、同じ場所でつまずいて失敗しました。

  • 正解の場合:一貫性があるおかげで、正解を確実に繰り返せる
  • 間違いの場合:一貫性があるおかげで、間違いを確実に繰り返す

つまり、「一貫性」は、AI が「正しい方向」に向かっているか「間違った方向」に向かっているかに関わらず、その結果を「増幅(アンプ)」するのです。
もし AI が「間違った解釈」をしていれば、一貫性が高いほど、**「自信満々に間違ったことをやり続ける」**ことになります。

🏃‍♂️ 発見 3:「速さ」と「正確さ」のトレードオフ

GPT-5 という探偵は、クラウデに比べて約 5 倍も速く行動しました。しかし、その代償として:

  • 正解率は半分以下。
  • 行動の一貫性も悪かった(5 回やって、5 回とも違う動きをする)。

これは、**「速く動くためには、慎重さや一貫性を犠牲にしなければならない」**というジレンマを示しています。

  • クラウデ:「ゆっくり、慎重に、同じようにやる」→ 高品質だが時間がかかる。
  • GPT-5:「速く、テキトーにやる」→ 時間は短いが、結果はバラバラ。

🎯 重要な教訓:「解釈」がすべて

この研究で最も重要な発見は、**「AI が失敗する原因の 7 割以上は、最初の問題の『解釈(理解)』が間違っていたから」**だったことです。

  • 例え話
    • クラウデは、料理のレシピを「塩を 10g 入れる」と間違って理解しました。でも、彼は「塩 10g」を完璧に、一貫して守り続けました。結果、料理は塩辛くて失敗しました。
    • もし彼が「塩 10g」を「砂糖 10g」に間違って理解していたら、一貫して砂糖を入れ続け、さらに失敗します。

逆に、**「新人探偵(ラマ)」**は、5 回やって 5 回とも違う動きをしました。ある時は「塩 10g」を入れ、ある時は「砂糖」を入れ、ある時は「何も入れませんでした」。
そのおかげで、たまたま「正しい量(0g)」を入れた回が 1 回だけあり、それが正解になりました。

つまり、「一貫して同じ動きをする」こと自体は、成功を保証しないのです。大切なのは、**「最初に問題を正しく理解しているか」**です。

💡 私たちへのメッセージ

この論文は、AI を仕事で使う際に以下のことを教えてくれます。

  1. 「いつも同じ答えを出す AI」は信頼できる?
    • 答えは「YES でも NO でもある」。もし AI が間違った前提で動いていれば、一貫性が高いほど「自信を持って間違った答え」を出し続ける危険性があります。
  2. 評価の仕方を変えよう
    • 「1 回やって成功したから OK」ではなく、「10 回やって、何回成功したか」「失敗した時、同じ間違いを繰り返しているか」をチェックする必要があります。
  3. AI の「理解力」を鍛えるのが一番重要
    • 実行速度を上げたり、ツールを上手に使ったりする前に、「本当に何をすべきか」を正しく理解させることが、AI を信頼できる存在にする最大の鍵です。

まとめ

AI の「一貫性」は、「良い方向へのエンジン」にも、「悪い方向へのエンジン」にもなり得るという両刃の剣です。
私たちが目指すべきは、AI に「同じ動きをさせること」ではなく、**「最初に正しい方向を指し示すこと」**なのです。