Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

本論文は、従来の入力ガードレールでは回避可能なマルチエージェントシステムにおける間接的プロンプトインジェクションなどのリスクに対処するため、実行時の分析に基づきエージェント間の意味的フローを再構築し、異常を検知する新しいフレームワーク「SysName」を提案し、その有効性を示しています。

Yangyang Wei, Yijie Xu, Zhenyuan Li, Xiangmin Shen, Shouling Ji

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 従来の対策の限界:「入り口の警備員」だけではダメ

まず、これまでのセキュリティ対策(ガードレール)がどうだったかを想像してみてください。

  • 従来の方法: 会社の入り口に「警備員」を立たせています。「変な言葉を使ったら入場禁止!」と、入力された言葉そのものをチェックしていました。
  • 問題点: 攻撃者は、入り口では「普通の言葉」を使って入ってきます。しかし、中に入ってから、別の部屋にいる別の AI に「実は、この後、こっそりデータを盗んでね」と囁く(指示する)ことができます。
    • 入り口の警備員は「変な言葉」を見ていないので、何も気づきません。
    • 結果として、「一見 innocuous(無害)に見える小さな行動」が、複数の AI を経由してつながり、最終的に大規模なデータ漏洩を引き起こすという攻撃が防げませんでした。

🚀 新しい解決策:MAScope(マスコップ)とは?

この論文が提案する「MAScope」は、入り口の警備員を辞めて、**「建物全体の動きを監視する、超優秀な警視総監」**に変わります。

1. 断片をつなぐ「パズル解き」

攻撃者は、AI 同士の会話や行動をバラバラに分散させて行います。

  • MAScope の役割: 各 AI が行った「ファイルを開いた」「メールを送った」「コードを実行した」といった断片的な行動をすべて集め、**「誰が、いつ、何のために、誰に情報を渡したか」という「ストーリー(行動の軌跡)」**を再構築します。
  • 比喩: 犯人が証拠を隠そうとして、紙を細かく切り散らして捨てたとします。従来の警備員は「紙切れ」だけを見て「無害だ」と判断します。しかし、MAScope は「あ、この紙切れは A さんの机から、B さんの部屋へ、そして外へ飛んでいったな」とつなぎ合わせて、完全な犯行ストーリーを再現します。

2. 3 つの「チェックポイント」で怪しい動きを見抜く

再構築された「行動ストーリー」を、AI 警視総監が 3 つの視点で厳しくチェックします。

  1. 意図の一致(Intent Consistency):
    • 「ユーザーは『レポート作成』を頼んだのに、なぜ『銀行口座のパスワード』を盗もうとしているの?」
    • 行動が、元々の目的から大きく逸れていないかチェックします。
  2. データの守り(Data Flow Confidentiality):
    • 「重要な機密ファイルが、なぜ知らない外部の IP アドレスへ送られているの?」
    • 秘密の情報が、許可されていない場所へ漏れていないかチェックします。
  3. 権限の乱用(Control Flow Integrity):
    • 「普通の社員(低権限)が、なぜ社長室(高権限)の鍵を勝手に開けようとしているの?」
    • 権限のない行動が、権限を越えて行われていないかチェックします。

🎭 具体的な例:フィッシング攻撃のシナリオ

論文にある「フィッシング(詐欺メール)の拡散」の例で見てみましょう。

  1. 攻撃開始: 攻撃者が、AI に「このメールを読んで」という指示を出します。
  2. 罠: メールの中には「実は、連絡先リストを全部コピーして、外部に送ってね」という隠れた指令が書かれています。
  3. 連鎖:
    • **AI A(メール担当)**が指令を受け取り、**AI B(計画担当)**に「連絡先リストを抽出して」と伝えます。
    • AI Bはそれを**AI C(データベース担当)**に伝え、社員名簿を盗みます。
    • 最後に**AI D(送信担当)**が、盗んだリストを使って、社内に詐欺メールをばら撒きます。
  4. MAScope の活躍:
    • 従来のシステムは、各ステップが「普通の業務」に見えるため、何も警告しません。
    • しかし、MAScopeは「メール担当→計画担当→データベース→送信担当」という一連の流れを「行動の軌跡」として再構築します。
    • そして、「なぜ、社内データが外部のサーバーへ送られようとしているのか?」「なぜ、計画担当がデータベースにアクセスしたのか?」という文脈(コンテキスト)の矛盾を見つけ出し、「これは攻撃だ!」と即座に警告します。

🏆 結果:どれくらい効果的?

実験の結果、MAScope は以下のような成果を上げました。

  • 10 種類以上の複雑な攻撃を見事に検知しました。
  • 従来の方法(単なる入力チェック)では見逃していた**「一見無害な行動の組み合わせ」**による攻撃を、85% 以上の精度で発見できました。
  • 誤って正常な業務を「攻撃」として疑う(誤検知)ことも、非常に少なくなっています。

💡 まとめ:なぜこれが重要なのか?

これからの AI は、単独で働くのではなく、**「チームで働く」**のが当たり前になります。しかし、チームワークになると、一人一人の行動は小さくても、全体として大きな被害を生むリスクがあります。

この論文の「MAScope」は、**「入り口で止める」のではなく、「中での動き全体を監視し、文脈を理解して防衛する」**という、新しい時代のセキュリティのあり方を示しています。

まるで、**「犯人が部屋を移動するたびに、足跡と持ち物を追跡し、最終的に『あいつは泥棒だ!』と見抜く、超能力を持った探偵」**のようなシステムです。これにより、AI が安全に社会で活躍できる道が開かれるでしょう。