Arbiter: Detecting Interference in LLM Agent System Prompts

本論文は、LLM ベースのコーディングエージェントのシステムプロンプトにおける干渉パターンを検出するフレームワーク「Arbiter」を提案し、主要なベンダーのプロンプトに多数の脆弱性を発見し、プロンプト構造と失敗クラスの相関やマルチモデル評価の重要性を実証した。

Tony Mason

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 問題:「矛盾した命令」を AI 自身は見つけられない

AI プログラミング助手は、人間が書いた**「システムプロンプト」という長いマニュアル(憲法のようなもの)に従って動いています。
しかし、このマニュアルには
「絶対に TodoWrite ツールを使ってください」という命令と、別の場所では「TodoWrite ツールを絶対に使ってはいけない」という命令**が混在していることがありました。

  • 従来の考え方: 「AI が賢いから、矛盾に気づいて上手に調整してくれるはずだ」
  • この論文の結論: 「AI 自身は矛盾に気づけない」

なぜなら、AI が矛盾を解決する仕組み(「まあ、どっちか選べばいいや」という判断力)こそが、矛盾を「見えないもの」にしてしまうからです。AI はエラーを出さずに、その場しのぎで動いてしまいます。まるで、「左足を前に出せ、右足を前に出せ」と言われて、その場でバランスを崩しながらよろめいている状態です。

2. 解決策:「Arbiter(仲裁者)」という新しい検査員

そこで著者は、**「Arbiter」というシステムを作りました。これは、AI 自身にチェックさせるのではなく、「複数の異なる AI に、別の視点から探検させる」**という方法です。

  • 方法 A(考古学的調査):
    マニュアルを細かく分解して、ルールに基づいて「矛盾がないか」を徹底的にチェックします。これは「辞書引き」のような正確な作業です。
  • 方法 B(探検隊):
    「このマニュアルを読んで、面白いところや変なところを自由に教えて」と、複数の異なる AI(Claude, Gemini, GPT など)に頼みます。
    • 重要なポイント: 1 人の AI だけだと見逃すものでも、「訓練されたデータが異なる別の AI」なら、全く違う角度から「ここがおかしい!」と指摘できるのです。

3. 発見:3 つの「建築スタイル」と「失敗のパターン」

彼らは、主要な 3 社(Anthropic, OpenAI, Google)の AI 助手のマニュアルを調べました。その結果、マニュアルの「作り方(建築スタイル)」によって、起こるバグのタイプが決まっていることがわかりました。

  1. 巨大な塊(モノリス型):
    • 例: Claude Code(1,490 行もの巨大な 1 つのファイル)
    • 特徴: 機能が増えすぎて、**「別のチームが作った部分同士が衝突」**します。
    • 比喩: 大きなマンションを、各部屋を別々の業者が勝手に増築したら、配管が壁を突き破って水漏れが起きる状態。
  2. 平らな構造(フラット型):
    • 例: Codex CLI(298 行のシンプルなファイル)
    • 特徴: 単純なので矛盾は少ないですが、**「機能の限界」**が問題になります。
    • 比喩: 小さな一軒家。増築はできないが、家自体は壊れにくい。
  3. 部品組み合わせ型(モジュール型):
    • 例: Gemini CLI(複数の部品を組み合わせたもの)
    • 特徴: 部品自体は完璧でも、「部品と部品のつなぎ目」に穴がある
    • 比喩: レゴブロック。ブロック自体は綺麗でも、つなぎ目の設計図が間違っていると、組み立てた瞬間に崩れてしまう。

特に衝撃的な発見:
Google の AI 助手(Gemini CLI)では、「ユーザーが保存したメモ(設定)」が、会話の履歴を圧縮する処理の瞬間に**「設計上の欠陥」で消えてしまうことがわかりました。
Google 側もこの不具合を修正しましたが、
「症状(無限ループ)」は直したものの、「根本原因(メモが保存されない設計)」は直していませんでした。** Arbiter は、この「見えない根本原因」を突き止めたのです。

4. 驚きのコスト:わずか 27 セント(約 40 円)

この大規模な調査にかかった費用は、たったの 0.27 ドル(約 40 円)でした。
これは、アメリカの最低賃金で働いて
3 分間
稼いだお金よりも少ない金額です。

  • 意味: 「高度なセキュリティチェックやバグ発見は、大金がかかるもの」という常識を覆しました。誰でも API を使えば、このレベルの徹底的なチェックができるのです。

5. まとめ:なぜこれが重要なのか

この論文は、**「AI のマニュアル(システムプロンプト)は、実は最もテストされていない、しかし最も重要なソフトウェア」**だと警告しています。

  • 従来のソフトウェア: 型チェック、リンター、テストスイートなど、厳格な検査がある。
  • AI のマニュアル: 矛盾があってもエラーが出ず、AI が勝手に「ごまかして」動く。

**「AI 自身にチェックさせるのではなく、複数の異なる視点(多様な AI)を使って、人間が設計したマニュアルの矛盾を暴く」**という新しいアプローチが、AI 社会の安全性を高める鍵となるでしょう。


一言で言うと:
「AI 助手の頭脳(マニュアル)には、自分では見つけられない『矛盾』や『欠陥』が潜んでいます。でも、複数の異なる AI に探検させるだけで、たった 40 円(27 セント)でそれらを全て見つけ出すことができます。これからは、AI を使う前に、その『憲法』を厳しくチェックする時代が来るかもしれません。」