Arbiter: Detecting Interference in LLM Agent System Prompts

Each language version is independently generated for its own context, not a direct translation.

1. 問題：「矛盾した命令」を AI 自身は見つけられない

AI プログラミング助手は、人間が書いた**「システムプロンプト」という長いマニュアル（憲法のようなもの）に従って動いています。
しかし、このマニュアルには「絶対に TodoWrite ツールを使ってください」という命令と、別の場所では「TodoWrite ツールを絶対に使ってはいけない」という命令**が混在していることがありました。

従来の考え方： 「AI が賢いから、矛盾に気づいて上手に調整してくれるはずだ」
この論文の結論： 「AI 自身は矛盾に気づけない」

なぜなら、AI が矛盾を解決する仕組み（「まあ、どっちか選べばいいや」という判断力）こそが、矛盾を「見えないもの」にしてしまうからです。AI はエラーを出さずに、その場しのぎで動いてしまいます。まるで、「左足を前に出せ、右足を前に出せ」と言われて、その場でバランスを崩しながらよろめいている状態です。

2. 解決策：「Arbiter（仲裁者）」という新しい検査員

そこで著者は、**「Arbiter」というシステムを作りました。これは、AI 自身にチェックさせるのではなく、「複数の異なる AI に、別の視点から探検させる」**という方法です。

方法 A（考古学的調査）：
マニュアルを細かく分解して、ルールに基づいて「矛盾がないか」を徹底的にチェックします。これは「辞書引き」のような正確な作業です。
方法 B（探検隊）：
「このマニュアルを読んで、面白いところや変なところを自由に教えて」と、複数の異なる AI（Claude, Gemini, GPT など）に頼みます。
- 重要なポイント： 1 人の AI だけだと見逃すものでも、「訓練されたデータが異なる別の AI」なら、全く違う角度から「ここがおかしい！」と指摘できるのです。

3. 発見：3 つの「建築スタイル」と「失敗のパターン」

彼らは、主要な 3 社（Anthropic, OpenAI, Google）の AI 助手のマニュアルを調べました。その結果、マニュアルの「作り方（建築スタイル）」によって、起こるバグのタイプが決まっていることがわかりました。

巨大な塊（モノリス型）：
- 例： Claude Code（1,490 行もの巨大な 1 つのファイル）
- 特徴： 機能が増えすぎて、**「別のチームが作った部分同士が衝突」**します。
- 比喩： 大きなマンションを、各部屋を別々の業者が勝手に増築したら、配管が壁を突き破って水漏れが起きる状態。
平らな構造（フラット型）：
- 例： Codex CLI（298 行のシンプルなファイル）
- 特徴： 単純なので矛盾は少ないですが、**「機能の限界」**が問題になります。
- 比喩： 小さな一軒家。増築はできないが、家自体は壊れにくい。
部品組み合わせ型（モジュール型）：
- 例： Gemini CLI（複数の部品を組み合わせたもの）
- 特徴： 部品自体は完璧でも、「部品と部品のつなぎ目」に穴がある。
- 比喩： レゴブロック。ブロック自体は綺麗でも、つなぎ目の設計図が間違っていると、組み立てた瞬間に崩れてしまう。

特に衝撃的な発見：
Google の AI 助手（Gemini CLI）では、「ユーザーが保存したメモ（設定）」が、会話の履歴を圧縮する処理の瞬間に**「設計上の欠陥」で消えてしまうことがわかりました。
Google 側もこの不具合を修正しましたが、「症状（無限ループ）」は直したものの、「根本原因（メモが保存されない設計）」は直していませんでした。** Arbiter は、この「見えない根本原因」を突き止めたのです。

4. 驚きのコスト：わずか 27 セント（約 40 円）

この大規模な調査にかかった費用は、たったの 0.27 ドル（約 40 円）でした。
これは、アメリカの最低賃金で働いて3 分間稼いだお金よりも少ない金額です。

意味： 「高度なセキュリティチェックやバグ発見は、大金がかかるもの」という常識を覆しました。誰でも API を使えば、このレベルの徹底的なチェックができるのです。

5. まとめ：なぜこれが重要なのか

この論文は、**「AI のマニュアル（システムプロンプト）は、実は最もテストされていない、しかし最も重要なソフトウェア」**だと警告しています。

従来のソフトウェア： 型チェック、リンター、テストスイートなど、厳格な検査がある。
AI のマニュアル： 矛盾があってもエラーが出ず、AI が勝手に「ごまかして」動く。

**「AI 自身にチェックさせるのではなく、複数の異なる視点（多様な AI）を使って、人間が設計したマニュアルの矛盾を暴く」**という新しいアプローチが、AI 社会の安全性を高める鍵となるでしょう。

一言で言うと：
「AI 助手の頭脳（マニュアル）には、自分では見つけられない『矛盾』や『欠陥』が潜んでいます。でも、複数の異なる AI に探検させるだけで、たった 40 円（27 セント）でそれらを全て見つけ出すことができます。これからは、AI を使う前に、その『憲法』を厳しくチェックする時代が来るかもしれません。」

アーキテクチャ	ベンダー	特徴的な失敗モード
モノリシック	Claude Code	サブシステム境界での成長レベルのバグ。独立して開発されたサブシステム（例：TodoWrite 管理とコミットワークフロー）が統合され、矛盾する「常に使用」「決して使用しない」という指示が衝突します。
フラット	Codex CLI	機能と一貫性のトレードオフ。プロンプトが短く単純なため矛盾は少ないですが、アイデンティティの混乱や実装詳細の漏洩などの構造的な観察事項が見つかりました。
モジュール	Gemini CLI	結合部（Seam）での設計レベルのバグ。各モジュールは単体で動作しますが、モジュール間の契約（例：履歴圧縮時のメモリ保持）が定義されておらず、データ損失が発生します。

Arbiter: Detecting Interference in LLM Agent System Prompts

1. 問題：「矛盾した命令」を AI 自身は見つけられない

2. 解決策：「Arbiter（仲裁者）」という新しい検査員

3. 発見：3 つの「建築スタイル」と「失敗のパターン」

4. 驚きのコスト：わずか 27 セント（約 40 円）

5. まとめ：なぜこれが重要なのか

論文「Arbiter: Detecting Interference in LLM Agent System Prompts」の技術的概要

1. 問題定義：システムプロンプトの「テストインフラ」の欠如

2. 手法：Arbiter フレームワーク

2.1 指向性評価（Directed Evaluation）：プロンプト考古学

2.2 非指向性掃討（Undirected Scouring）：多モデル探索

2.3 構造的解析（Prompt AST）

3. 主要な貢献

4. 結果と知見

4.1 定量的サマリー

4.2 アーキテクチャと失敗モードの相関

4.3 多モデルの相補性

4.4 具体的な発見事例

5. 意義と結論

Arbiter: Detecting Interference in LLM Agent System Prompts

1. 問題：「矛盾した命令」を AI 自身は見つけられない

2. 解決策：「Arbiter（仲裁者）」という新しい検査員

3. 発見：3 つの「建築スタイル」と「失敗のパターン」

4. 驚きのコスト：わずか 27 セント（約 40 円）

5. まとめ：なぜこれが重要なのか

論文「Arbiter: Detecting Interference in LLM Agent System Prompts」の技術的概要

1. 問題定義：システムプロンプトの「テストインフラ」の欠如

2. 手法：Arbiter フレームワーク

2.1 指向性評価（Directed Evaluation）：プロンプト考古学

2.2 非指向性掃討（Undirected Scouring）：多モデル探索

2.3 構造的解析（Prompt AST）

3. 主要な貢献

4. 結果と知見

4.1 定量的サマリー

4.2 アーキテクチャと失敗モードの相関

4.3 多モデルの相補性

4.4 具体的な発見事例

5. 意義と結論

関連論文

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information