From Features to Actions: Explainability in Traditional and Agentic AI Systems

この論文は、静的な予測に対する従来の説明可能性手法が自律的なエージェント AI の行動軌跡の診断には不向きであり、代わりに実行トレースに基づく評価が失敗の特定や状態管理の重要性を明らかにするため、エージェントシステムには軌跡レベルの説明可能性への転換が必要であることを示しています。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 映画の「静止画」から「ドラマ」へ

1. 昔の AI(静的な AI):写真の鑑定士

昔の AI は、**「写真を見て、何の写真か当てる」**ような仕事をしていました。

  • 例: 「この写真は『猫』か『犬』か?」
  • 説明の仕方: 「猫の耳の形とヒゲの部分が、この写真が『猫』だと判断する理由です」と、写真の一部を指差して説明していました。
  • 論文の発見: この方法は、写真(入力)と答え(出力)の関係がシンプルなら、とても上手に機能しました。

2. 新しい AI(エージェント型 AI):探偵ドラマの主人公

最近の AI(エージェント)は、**「複雑な事件を解決するために、何十回も動き回る探偵」**のような存在です。

  • 例: 「航空券を予約して、ホテルをキャンセルし、旅行保険に加入する」というタスク。
  • 動き: 検索して、電話をかけ、エラーが出たら別の方法を探し、メモを取って……と、時間とともに動き続けるのです。
  • 問題: ここで「なぜ失敗したのか?」を、昔の写真鑑定士のように「最初の入力(ユーザーの注文)」だけを見て説明しても意味がありません。
    • 「3 番目のステップで、ホテルの予約番号を間違えて入力したから失敗した」
    • 「5 番目のステップで、エラーに気づかず、そのまま間違った方向に進んでしまった」
    • これらの**「過程(ドラマの展開)」**こそが、失敗の理由なのです。

🔍 論文が突きつけた「2 つの大きな違い」

この論文は、従来の AI 説明方法と、新しいエージェント AI に必要な説明方法を比べました。

📸 方法 A:「特徴量の割り当て」(従来の方法)

  • どんなもの? 「この写真のどの部分が重要か?」を数値で示す方法(SHAP や LIME など)。
  • 結果: 写真(静的なタスク)なら、「どの部分が重要か」を安定して説明できました。
  • エージェントへの適用: しかし、探偵ドラマ(エージェント)にこれを当てはめようとすると、「どこで失敗したか」を特定できません。
    • 「全体の 86% は安定していたけど、具体的な失敗の原因はわからない」という状態になります。

🎥 方法 B:「痕跡(トレース)に基づく診断」(新しい方法)

  • どんなもの? 探偵が残した**「行動ログ(メモ、電話記録、失敗した瞬間の記録)」**をすべて読み返し、チェックリスト(ルーブリック)を使って評価する方法。
  • 結果: これが劇的に効果的でした。
    • 発見 1: 失敗したケースの 70% 以上で、「状態の追跡ミス(メモと実際の状況がズレている)」が見つかりました。
    • 発見 2: この「状態のズレ」が起きると、成功する確率が**約半分(49% 減)**に落ち込みます。
    • 発見 3: 失敗のパターンは 2 種類ありました。
      1. ゆっくり崩壊型(TAU-bench): 小さなメモのズレが積み重なって、最後には取り返しのつかない失敗になる(「慢性的な病気」のような感じ)。
      2. 一発崩壊型(AssistantBench): 最初の道具選びを間違えるだけで、即座に失敗する(「爆弾」のような感じ)。

💡 論文が提案する「最小限の説明パッケージ(MEP)」

これからの AI には、単なる「答え」だけでなく、**「証拠付きの説明」が必要です。著者たちはこれを「MEP(Minimal Explanation Packet)」**と呼んでいます。

  • 従来の説明: 「答えは『猫』です。理由は『耳』です。」(証拠なし)
  • 新しい MEP:
    1. 答え: 「予約に失敗しました。」
    2. 証拠(コンテキスト): 「3 番目のステップで、ユーザーのメモに『キャンセル不可』と書いてあるのに、システムが『キャンセル可能』と判断してしまいました。」
    3. 信頼性チェック: 「この判断は、過去のログと矛盾しています。」

つまり、「なぜそうなったか」だけでなく、「どの瞬間に、どんな証拠に基づいて、どう間違ったか」まで含めたパッケージが必要だということです。


🌟 まとめ:なぜこれが重要なのか?

この論文は、**「AI が複雑な仕事をするようになった今、昔の『写真鑑定』のような説明では不十分だ」**と警鐘を鳴らしています。

  • 医療や金融など、失敗が許されない分野では、「なぜ AI がその判断を下したか」だけでなく、**「プロセスのどこで、どうミスが積み重なったか」**を特定できる必要があります。
  • 従来の AI 説明は「全体像の傾向」はわかっても、「特定の失敗の犯人」を特定できません。
  • 新しい**「トレース(痕跡)ベースの説明」**を使えば、AI がどこで躓いたかを正確に突き止め、システムを改善できるようになります。

一言で言えば:
「AI が『写真』を見るだけなら、どの部分が重要か教えてくれればいい。でも、AI が『探偵』として動き回るなら、その『事件の全記録(ドラマ)』を紐解いて、どこで誰がミスを犯したかを説明してくれなければ、信頼は得られない」というメッセージです。