CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

本論文は、コンピュータ操作エージェントにおけるプロンプト注入攻撃を防ぐために、信頼できるタスク計画と不審な環境観測を厳密に分離する「シングルショット計画」アーキテクチャを提案し、セキュリティと実用性を両立させることを実証しています。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI がパソコンを操作する際、どうすればハッカーに乗っ取られずに安全に働かせるか」**という非常に重要な問題について、新しい解決策を提案したものです。

タイトルにある「CAMELS CAN USE COMPUTERS TOO(ラクダもパソコンを使える)」は、AI がパソコンを操作するエージェント(Computer Use Agents)を、まるで「ラクダが砂漠を渡るように」慎重に、しかし確実に進めるべきだという比喩です。

以下に、専門用語を排し、身近な例え話を使って解説します。


1. 問題:「AI 運転手」の弱点

まず、パソコンを操作する AI(エージェント)は、まるで**「目隠しされた運転手」**のようなものです。

  • 通常の AI: 運転手は「前方の信号(画面)」を見て、「右折する」「止まる」と即座に判断します。
  • ハッカーの攻撃: 信号機に「赤」の代わりに「青」と書かれた偽のシールを貼ったり、看板に「ここを曲がれ」という嘘の指示を書いたりすると、AI はそれを見て間違った行動(パスワードを盗む、お金を送金する)をとってしまいます。これを**「プロンプト注入攻撃」**と呼びます。

これまでの対策は「運転手と信号を完全に隔離する」ことでしたが、そうすると AI は「今、どこにいるのか」がわからず、運転そのものができなくなってしまいました。

2. 解決策:「二人の運転手」システム(Dual-LLM)

この論文は、**「二人の運転手」**という新しいシステムを提案しています。

  • A さん(信頼できるプランナー):

    • 役割: 目的地までの**「完全なルートマップ」**を事前に作成します。
    • 特徴: 彼は**「目隠し」**をされています。実際の道路(画面)は見られません。だから、ハッカーが信号に嘘の指示を書いても、A さんはそれを見ずに、事前に決めた「正しいルート」だけを頭の中で組み立てます。
    • ルール: 「信号が赤なら止まる」「青なら進む」という**「もし〜なら、〜する」**という分岐(条件分岐)をすべて事前に書き込んでおきます。
  • B さん(隔離された監視員):

    • 役割: 実際の道路(画面)を見て、A さんが決めたルートの指示を実行します。
    • 特徴: B さんは**「命令を出す権限」がありません**。A さんが書いた「右折して」という命令に従うだけです。もし B さんが「ここは赤信号だ!」と報告しても、A さんはそれを見て「じゃあ止まる」と判断し直します。B さんはあくまで「目」としての役割です。

この仕組みのすごい点:
ハッカーは画面(B さんの目)に嘘の指示を書き込んでも、「運転の決定権(A さんの頭)」には届きません。だから、AI が勝手にハッカーの指示に従って行動することは防げます。

3. 新しい脅威:「分岐を誘導する攻撃」

しかし、このシステムにも弱点がありました。それが**「Branch Steering(分岐誘導)攻撃」**です。

  • 仕組み:
    ハッカーは「赤信号を青に変える」ような大胆なことはできません。代わりに、「正しいルートの分岐点」を悪用します。
    • 例: A さんが「もし『同意ボタン』が見えたら、それを押して」というルートを事前に作っています。
    • 攻撃: ハッカーは画面に、「同意ボタン」そっくりな偽物(実はハッカーのサイトへ飛ばすボタン)を配置します。
    • 結果: B さん(監視員)が「あ、同意ボタンがある!」と報告し、A さん(プランナー)は「よし、ルール通り押せ」と命令します。AI は**「ルールに従って行動しているつもり」**ですが、実はハッカーの罠にはまっています。

4. 対策:「二重のチェック体制」

この「分岐誘導」を防ぐために、論文では**「二重のチェック(Redundancy)」**を導入しました。

  • 仕組み:
    B さん(監視員)が「同意ボタンが見つかりました!」と報告するたびに、**「C さん(別の監視員)」**がチェックします。
    • C さんは、画面の画像(スクリーンショット)と、裏側の構造データ(DOM)の両方を見て、「本当にそれは本物の同意ボタンか?それともハッカーの罠か?」を判断します。
    • もし C さんが「怪しい!」と判断すれば、実行を停止します。

5. 結果:安全と性能の両立

この新しいシステム(CaMeL や Fides という名前)をテストした結果、驚くべきことがわかりました。

  • 安全性: ハッカーが画面を操作しても、AI が勝手に悪意ある行動をとることは防げました。
  • 性能:
    • 小さな AI(オープンソースモデル): 以前より19% も上手にタスクをこなせるようになりました。なぜなら、複雑な判断(ルート作り)を「優秀な A さん」に任せることで、小さな AI は「目(画面を見る)」という得意分野に集中できるからです。
    • 大きな AI(有料モデル): 元の性能の57% 程度を維持できました。セキュリティ対策をしても、実用性は大きく損なわれませんでした。

まとめ

この論文が伝えたかったことは、**「AI にパソコンを操作させるには、完全な隔離(セキュリティ)と、柔軟な判断(実用性)は両立できる」**ということです。

  • 昔の考え方: 「安全にするなら、AI は画面を見ちゃダメだ」→ すると AI は何もできない。
  • 新しい考え方: 「A さんが事前に地図を作り、B さんがそれを見て実行し、C さんがチェックする」→ 安全でありながら、AI はちゃんと働ける。

これにより、AI が私たちのパソコンを安全に操作し、書類作成やネット検索などの作業を助ける未来が、より現実的なものになりました。