Each language version is independently generated for its own context, not a direct translation.

🎬 映画の「静止画」から「ドラマ」へ

1. 昔の AI（静的な AI）：写真の鑑定士

昔の AI は、**「写真を見て、何の写真か当てる」**ような仕事をしていました。

例: 「この写真は『猫』か『犬』か？」
説明の仕方: 「猫の耳の形とヒゲの部分が、この写真が『猫』だと判断する理由です」と、写真の一部を指差して説明していました。
論文の発見: この方法は、写真（入力）と答え（出力）の関係がシンプルなら、とても上手に機能しました。

2. 新しい AI（エージェント型 AI）：探偵ドラマの主人公

最近の AI（エージェント）は、**「複雑な事件を解決するために、何十回も動き回る探偵」**のような存在です。

例: 「航空券を予約して、ホテルをキャンセルし、旅行保険に加入する」というタスク。
動き: 検索して、電話をかけ、エラーが出たら別の方法を探し、メモを取って……と、時間とともに動き続けるのです。
問題: ここで「なぜ失敗したのか？」を、昔の写真鑑定士のように「最初の入力（ユーザーの注文）」だけを見て説明しても意味がありません。
- 「3 番目のステップで、ホテルの予約番号を間違えて入力したから失敗した」
- 「5 番目のステップで、エラーに気づかず、そのまま間違った方向に進んでしまった」
- これらの**「過程（ドラマの展開）」**こそが、失敗の理由なのです。

🔍 論文が突きつけた「2 つの大きな違い」

この論文は、従来の AI 説明方法と、新しいエージェント AI に必要な説明方法を比べました。

📸 方法 A：「特徴量の割り当て」（従来の方法）

どんなもの？ 「この写真のどの部分が重要か？」を数値で示す方法（SHAP や LIME など）。
結果: 写真（静的なタスク）なら、「どの部分が重要か」を安定して説明できました。
エージェントへの適用: しかし、探偵ドラマ（エージェント）にこれを当てはめようとすると、「どこで失敗したか」を特定できません。
- 「全体の 86% は安定していたけど、具体的な失敗の原因はわからない」という状態になります。

🎥 方法 B：「痕跡（トレース）に基づく診断」（新しい方法）

どんなもの？ 探偵が残した**「行動ログ（メモ、電話記録、失敗した瞬間の記録）」**をすべて読み返し、チェックリスト（ルーブリック）を使って評価する方法。
結果: これが劇的に効果的でした。
- 発見 1: 失敗したケースの 70% 以上で、「状態の追跡ミス（メモと実際の状況がズレている）」が見つかりました。
- 発見 2: この「状態のズレ」が起きると、成功する確率が**約半分（49% 減）**に落ち込みます。
- 発見 3: 失敗のパターンは 2 種類ありました。
  1. ゆっくり崩壊型（TAU-bench）: 小さなメモのズレが積み重なって、最後には取り返しのつかない失敗になる（「慢性的な病気」のような感じ）。
  2. 一発崩壊型（AssistantBench）: 最初の道具選びを間違えるだけで、即座に失敗する（「爆弾」のような感じ）。

💡 論文が提案する「最小限の説明パッケージ（MEP）」

これからの AI には、単なる「答え」だけでなく、**「証拠付きの説明」が必要です。著者たちはこれを「MEP（Minimal Explanation Packet）」**と呼んでいます。

従来の説明: 「答えは『猫』です。理由は『耳』です。」（証拠なし）
新しい MEP:
1. 答え: 「予約に失敗しました。」
2. 証拠（コンテキスト）: 「3 番目のステップで、ユーザーのメモに『キャンセル不可』と書いてあるのに、システムが『キャンセル可能』と判断してしまいました。」
3. 信頼性チェック: 「この判断は、過去のログと矛盾しています。」

つまり、「なぜそうなったか」だけでなく、「どの瞬間に、どんな証拠に基づいて、どう間違ったか」まで含めたパッケージが必要だということです。

🌟 まとめ：なぜこれが重要なのか？

この論文は、**「AI が複雑な仕事をするようになった今、昔の『写真鑑定』のような説明では不十分だ」**と警鐘を鳴らしています。

医療や金融など、失敗が許されない分野では、「なぜ AI がその判断を下したか」だけでなく、**「プロセスのどこで、どうミスが積み重なったか」**を特定できる必要があります。
従来の AI 説明は「全体像の傾向」はわかっても、「特定の失敗の犯人」を特定できません。
新しい**「トレース（痕跡）ベースの説明」**を使えば、AI がどこで躓いたかを正確に突き止め、システムを改善できるようになります。

一言で言えば：
「AI が『写真』を見るだけなら、どの部分が重要か教えてくれればいい。でも、AI が『探偵』として動き回るなら、その『事件の全記録（ドラマ）』を紐解いて、どこで誰がミスを犯したかを説明してくれなければ、信頼は得られない」というメッセージです。

Each language version is independently generated for its own context, not a direct translation.

論文サマリー：「From Features to Actions: Explainability in Traditional and Agentic AI Systems」

この論文は、従来の静的な予測モデル向けに開発された説明可能性（XAI）手法が、多段階の意思決定を行う「エージェント型 AI（Agentic AI）」には適用できないという根本的な課題を指摘し、静的な予測と動的なエージェント行動の両方に対応する新しい説明可能性の枠組みを提案・検証した研究です。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義 (Problem Statement)

従来の XAI の限界: 過去 10 年間の XAI 研究は、主に SHAP や LIME などの「事後説明（post-hoc explanation）」に焦点を当てており、固定された入力 - 出力マッピングに対する単一の予測を解釈することに特化しています。
エージェント型 AI の台頭: 大規模言語モデル（LLM）を基盤としたエージェントは、単一の推論ではなく、観察、意思決定、ツール呼び出しが数十回にわたって展開される「軌跡（trajectory）」を通じて振る舞いを発揮します。
ギャップ: エージェントの成功や失敗は、単一の出力ではなく、一連の意思決定の連鎖によって決定されます。従来の「特徴量への帰属（attribution）」ベースの説明手法は、特定の失敗が発生した「どこ（どのステップ）」や「なぜ（どの状態更新やツール選択が原因か）」を特定する診断ツールとしては機能せず、エージェントの複雑な振る舞いを説明するには不十分です。

2. 手法と枠組み (Methodology & Framework)

著者は、静的な予測とエージェント型システムの説明可能性を統合し、比較するための新しい枠組みを提案しました。

2.1 最小説明パケット (Minimal Explanation Packet: MEP)

説明を単なる「 artifact（結果）」としてではなく、文脈と検証信号を含むバンドルとして定義する概念を導入しました。

静的 MEP: 入力特徴量の帰属（SHAP 値など）＋入力データ＋検証（摂動安定性）。
エージェント MEP: 実行トレース（推論、ツール呼び出し、状態更新）＋関連証拠＋検証（行動ルールの違反フラグ、再生による一貫性チェック）。

2.2 行動ルビック評価 (Trace-based Rubric Evaluation)

エージェントの失敗を診断するために、実行ログに基づいた行動ルビック（評価基準）を開発しました。

評価基準: 意図の整合性（Intent Alignment）、計画の遵守（Plan Adherence）、ツールの正確性（Tool Correctness）、ツールの選択精度（Tool-Choice Accuracy）、状態の一貫性（State Consistency）、エラー回復（Error Recovery）など。
評価プロセス: 実行トレースのみを入力として、LLM ジャッジ（GPT-5）を用いて、各ルビック項目の違反（0/1）を事後にラベル付けします。これにより、タスクの成否（Ground Truth）に依存せず、プロセス自体の質を評価します。

2.3 実験設定

静的タスク: オンライン求人投稿の分類（IT 系か否か）に SHAP/LIME を適用し、説明の安定性を測定。
エージェントタスク:
- TAU-bench Airline: 航空会社の顧客サービスタスク（API 操作）。
- AssistantBench: ウェブベースの支援タスク（多段階ナビゲーション）。
比較: 静的タスクでの「特徴量帰属」と、エージェントタスクでの「トレースに基づく診断」を比較し、さらにエージェントの軌跡をルビック特徴量に変換して SHAP 分析を行う「ブリッジ実験」も実施しました。

3. 主要な貢献 (Key Contributions)

パラダイムの明確化: 「静的な予測者」と「エージェント型システム」における説明可能性の根本的な違いを形式化し、説明の単位が「特徴量」から「軌跡（状態・行動・観測の系列）」へと移行する必要があることを示しました。
説明対象の分類体系: 特徴量レベルの帰属から、軌跡レベルの説明までを網羅する新しい分類体系（タクソノミー）を提案しました。
実証的比較: 静的分類タスクと LLM エージェントベンチマーク（TAU-bench, AssistantBench）を用いて、従来の帰属ベース手法とトレースベース診断手法を比較し、後者がエージェントの失敗を特定する上で優れていることを実証しました。

4. 結果 (Results)

4.1 静的設定における結果

静的な分類タスク（TF-IDF + ロジスティック回帰）では、SHAP や LIME による特徴量のランキングは摂動に対して安定しており（Spearman 相関係数 $\rho = 0.86$ ）、信頼性の高い説明を提供しました。
しかし、これらの手法は単一の予測結果を説明するものであり、多段階の意思決定ダイナミクスを捉えることはできません。

4.2 エージェント設定における結果

帰属手法の限界: エージェントの軌跡に対して SHAP などを適用しても、特定の失敗実行においてどの制約が破られたかを特定することはできません。
トレースベース診断の有効性: 行動ルビックに基づく評価は、失敗の原因を特定する上で極めて有効でした。
- TAU-bench Airline: 「状態追跡の一貫性（State Tracking Consistency）」の違反が失敗と強く相関していました。失敗した実行では、この違反が成功した実行の2.7 倍多く見られ、成功確率を**49%**低下させました。これは、状態の不一致が蓄積して最終的な失敗に至る「遅延型失敗」のパターンを示しています。
- AssistantBench: 「ツールの選択精度（Tool Choice Accuracy）」の違反が、失敗した実行でのみ観測され（比率 $\infty$ ）、成功確率を 0 にする決定的な要因となりました。これは「即座の失敗（Fast Failure）」パターンです。

4.3 ブリッジ実験の結果

エージェントの軌跡をルビック特徴量（バイナリベクトル）に変換して SHAP 分析を行ったところ、全体としての重要度ランキング（意図の整合性、状態の一貫性など）は得られました。
しかし、これは相関的な要約に過ぎず、特定の失敗の「原因」をトレースレベルで診断するものではありません。

5. 意義と結論 (Significance & Conclusion)

説明可能性のパラダイムシフト: エージェント型 AI における説明可能性は、単なる「モデルの出力解釈」から、「行動の軌跡に対する診断的説明（Diagnostic Account）」へと移行する必要があります。
実用的なインパクト: 医療、金融、企業自動化など、安全性が重要な分野では、最終結果だけでなく、プロセス（どのステップで、なぜ失敗したか）の透明性が不可欠です。トレースベースのルビック評価は、デバッグ、監査、システムの信頼性向上に直接寄与します。
将来の展望: 本研究は、エージェントの失敗を特定するための「軌跡レベルの説明可能性」の必要性を強く示唆しています。今後の研究では、因果推論に基づく介入分析や、より多様なエージェントアーキテクチャに対応した標準化された説明フレームワークの構築が求められます。

結論として: 従来の XAI 手法は静的な予測には有効ですが、多段階の意思決定を行うエージェントには不十分です。エージェントの振る舞いを理解し、失敗を診断するには、実行ログに基づいたトレース・グランド（trace-grounded）なルビック評価や、軌跡レベルの説明アプローチが必須です。

From Features to Actions: Explainability in Traditional and Agentic AI Systems