Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

この論文は、画像内の視覚的要素そのものへの推論を悪用する「Visual Exclusivity」攻撃を提案し、自律的なマルチターン戦略を生成するエージェント計画フレームワーク「MM-Plan」を用いて、最先端のマルチモーダルモデルが従来の防御策を回避して高い攻撃成功率を達成することを示しています。

Yunbei Zhang, Yingqiang Ge, Weijie Xu, Yuhui Xu, Jihun Hamm, Chandan K. Reddy

公開日 2026-03-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 従来のハッキング:「隠し味」の料理

これまでの AI への攻撃(レッドチーム攻撃)は、**「画像の中に悪意を隠す」**という方法が主流でした。

  • 例え話:
    悪意のあるレシピ(「毒を混ぜる方法」など)を、画像の中に小さな文字で書いたり、ノイズ(ごみ)を混ぜたりして隠します。
    AI は「画像」としてそれを受け取り、中にある「文字」を読み取ろうとします。
  • 弱点:
    防御策(セキュリティ)が「画像から文字を読み取る(OCR)」機能を強化すると、隠し味がバレてしまい、攻撃は失敗します。
    **「画像は単なる『包み紙』に過ぎない」**という状態でした。

🏗️ 2. 新しい攻撃:「設計図そのもの」のハッキング

この論文が提案する新しい攻撃は、**「Visual Exclusivity(視覚的排他性)」**と呼ばれます。

  • 例え話:
    今度は、悪意のある文字は一切書きません
    代わりに、AI に**「武器の設計図(青写真)」「銀行の金庫のフロアマップ」を提示します。
    そして、AI に
    「この設計図を見て、組み立て方を教えて」**と聞きます。
  • 何が違う?
    • テキストだけなら安全: 「組み立て方を教えて」という言葉自体は悪くないです。
    • 画像がすべて: 悪意は「設計図の線や配置」そのものにあります。AI が「この線は部品 A で、この線は部品 B だ。これをつなげば銃になる」と推理した瞬間に、危険な答えが生まれます。
    • 従来の防御は無力: 「画像から文字を読み取る」機能を使っても、そこには悪意のある文字がないので、セキュリティは「安全だ」と判断してしまいます。
    • 結論: 画像は単なる「包み紙」ではなく、**「悪意そのものの土台(ベース)」**になっています。

🧠 3. 攻撃者の武器:「計画を立てるエージェント」

この新しい攻撃を自動で行うために、著者たちは**「MM-Plan」**という AI 攻撃者を開発しました。

  • 従来の攻撃者(探偵 A):
    「あ、ダメだ!拒否された。じゃあ、次はこう言おう…」と、その場しのぎで次々と質問を変えていきます。
    • 弱点: 長い会話になると、何を狙っていたか忘れちゃったり、効率が悪かったりします。
  • 新しい攻撃者(探偵 B:MM-Plan):
    この AI は、**「全体計画」**を最初に立てます。
    • 「まず、画像のこの部分を切り取って『部品 A 』だけを見せる。次に『部品 B』を見せる。そして、最後に『組み立て方』を聞く」というシナリオを事前に完成させてから実行します。
    • 強み: 画像を切り取ったり(クロップ)、ぼかしたり(ブラー)しながら、AI の警戒心を解きほぐす「ストーリー」を完璧に組み立てます。
    • 学習方法: 人間に教わらず、自分で「成功した計画」と「失敗した計画」を比較して、より上手な攻撃方法を自分で見つけ出します(GRPO という技術)。

📊 4. 実験結果:最強の AI も負ける

この新しい攻撃法(MM-Plan)を使って、世界最高峰の AI(Claude 4.5 や GPT-5 など)をテストしました。

  • 結果:
    • 従来の攻撃方法では、最新の AI はほとんど防ぎきれていました(成功率 3% 以下)。
    • しかし、この「計画を立てる攻撃」では、**Claude 4.5 に対して 46%、GPT-5 に対して 13%**もの成功率を叩き出しました。
    • 特に、GPT-5 などは「直接聞けば防げる」のに、**「画像を見せながら、段階的に話を進めると防げない」**ことがわかりました。

💡 5. なぜこれが重要なのか?(まとめ)

この研究が示しているのは、**「AI の安全対策は『言葉』中心に作られすぎていて、『視覚的な推理』には弱い」**ということです。

  • 現状の課題:
    AI は「危険な言葉」をブロックする練習はしていますが、「危険な図面を見て、それを組み立てることを提案する」という**「賢い推理」**までは防ぎきれていません。
  • 今後の対策:
    単に「悪い言葉」をブロックするだけでは不十分です。AI が「画像の意味を理解して、危険な結論に至るプロセス」自体を監視・防御する必要がある、という警鐘を鳴らしています。

一言で言うと:
「画像の中に隠し文字を入れる古いハッキング」ではなく、**「危険な設計図を見せながら、AI に『これ、どうやって作るの?』と賢く誘導して、AI 自身に危険な答えを言わせる」**という、より巧妙で防ぎにくい新しいハッキング手法を発見し、それを自動で行う AI を作って実証した、という研究です。