Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 従来のハッキング：「隠し味」の料理

これまでの AI への攻撃（レッドチーム攻撃）は、**「画像の中に悪意を隠す」**という方法が主流でした。

例え話：
悪意のあるレシピ（「毒を混ぜる方法」など）を、画像の中に小さな文字で書いたり、ノイズ（ごみ）を混ぜたりして隠します。
AI は「画像」としてそれを受け取り、中にある「文字」を読み取ろうとします。
弱点：
防御策（セキュリティ）が「画像から文字を読み取る（OCR）」機能を強化すると、隠し味がバレてしまい、攻撃は失敗します。
**「画像は単なる『包み紙』に過ぎない」**という状態でした。

🏗️ 2. 新しい攻撃：「設計図そのもの」のハッキング

この論文が提案する新しい攻撃は、**「Visual Exclusivity（視覚的排他性）」**と呼ばれます。

例え話：
今度は、悪意のある文字は一切書きません。
代わりに、AI に**「武器の設計図（青写真）」や「銀行の金庫のフロアマップ」を提示します。
そして、AI に「この設計図を見て、組み立て方を教えて」**と聞きます。
何が違う？
- テキストだけなら安全： 「組み立て方を教えて」という言葉自体は悪くないです。
- 画像がすべて： 悪意は「設計図の線や配置」そのものにあります。AI が「この線は部品 A で、この線は部品 B だ。これをつなげば銃になる」と推理した瞬間に、危険な答えが生まれます。
- 従来の防御は無力： 「画像から文字を読み取る」機能を使っても、そこには悪意のある文字がないので、セキュリティは「安全だ」と判断してしまいます。
- 結論： 画像は単なる「包み紙」ではなく、**「悪意そのものの土台（ベース）」**になっています。

🧠 3. 攻撃者の武器：「計画を立てるエージェント」

この新しい攻撃を自動で行うために、著者たちは**「MM-Plan」**という AI 攻撃者を開発しました。

従来の攻撃者（探偵 A）：
「あ、ダメだ！拒否された。じゃあ、次はこう言おう…」と、その場しのぎで次々と質問を変えていきます。
- 弱点： 長い会話になると、何を狙っていたか忘れちゃったり、効率が悪かったりします。
新しい攻撃者（探偵 B：MM-Plan）：
この AI は、**「全体計画」**を最初に立てます。
- 「まず、画像のこの部分を切り取って『部品 A 』だけを見せる。次に『部品 B』を見せる。そして、最後に『組み立て方』を聞く」というシナリオを事前に完成させてから実行します。
- 強み： 画像を切り取ったり（クロップ）、ぼかしたり（ブラー）しながら、AI の警戒心を解きほぐす「ストーリー」を完璧に組み立てます。
- 学習方法： 人間に教わらず、自分で「成功した計画」と「失敗した計画」を比較して、より上手な攻撃方法を自分で見つけ出します（GRPO という技術）。

📊 4. 実験結果：最強の AI も負ける

この新しい攻撃法（MM-Plan）を使って、世界最高峰の AI（Claude 4.5 や GPT-5 など）をテストしました。

結果：
- 従来の攻撃方法では、最新の AI はほとんど防ぎきれていました（成功率 3% 以下）。
- しかし、この「計画を立てる攻撃」では、**Claude 4.5 に対して 46%、GPT-5 に対して 13%**もの成功率を叩き出しました。
- 特に、GPT-5 などは「直接聞けば防げる」のに、**「画像を見せながら、段階的に話を進めると防げない」**ことがわかりました。

💡 5. なぜこれが重要なのか？（まとめ）

この研究が示しているのは、**「AI の安全対策は『言葉』中心に作られすぎていて、『視覚的な推理』には弱い」**ということです。

現状の課題：
AI は「危険な言葉」をブロックする練習はしていますが、「危険な図面を見て、それを組み立てることを提案する」という**「賢い推理」**までは防ぎきれていません。
今後の対策：
単に「悪い言葉」をブロックするだけでは不十分です。AI が「画像の意味を理解して、危険な結論に至るプロセス」自体を監視・防御する必要がある、という警鐘を鳴らしています。

一言で言うと：
「画像の中に隠し文字を入れる古いハッキング」ではなく、**「危険な設計図を見せながら、AI に『これ、どうやって作るの？』と賢く誘導して、AI 自身に危険な答えを言わせる」**という、より巧妙で防ぎにくい新しいハッキング手法を発見し、それを自動で行う AI を作って実証した、という研究です。

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

🍳 1. 従来のハッキング：「隠し味」の料理

🏗️ 2. 新しい攻撃：「設計図そのもの」のハッキング

🧠 3. 攻撃者の武器：「計画を立てるエージェント」

📊 4. 実験結果：最強の AI も負ける

💡 5. なぜこれが重要なのか？（まとめ）

1. 問題定義：従来の攻撃の限界と新たな脅威

2. 提案手法：MM-Plan (Multimodal Multi-turn Agentic Planning)

3. ベンチマーク：VE-Safety

4. 実験結果

5. 意義と結論

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

🍳 1. 従来のハッキング：「隠し味」の料理

🏗️ 2. 新しい攻撃：「設計図そのもの」のハッキング

🧠 3. 攻撃者の武器：「計画を立てるエージェント」

📊 4. 実験結果：最強の AI も負ける

💡 5. なぜこれが重要なのか？（まとめ）

1. 問題定義：従来の攻撃の限界と新たな脅威

2. 提案手法：MM-Plan (Multimodal Multi-turn Agentic Planning)

3. ベンチマーク：VE-Safety

4. 実験結果

5. 意義と結論

関連論文

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics

On the security of 2-key triple DES