Each language version is independently generated for its own context, not a direct translation.
🍳 1. 従来のハッキング:「隠し味」の料理
これまでの AI への攻撃(レッドチーム攻撃)は、**「画像の中に悪意を隠す」**という方法が主流でした。
- 例え話:
悪意のあるレシピ(「毒を混ぜる方法」など)を、画像の中に小さな文字で書いたり、ノイズ(ごみ)を混ぜたりして隠します。
AI は「画像」としてそれを受け取り、中にある「文字」を読み取ろうとします。 - 弱点:
防御策(セキュリティ)が「画像から文字を読み取る(OCR)」機能を強化すると、隠し味がバレてしまい、攻撃は失敗します。
**「画像は単なる『包み紙』に過ぎない」**という状態でした。
🏗️ 2. 新しい攻撃:「設計図そのもの」のハッキング
この論文が提案する新しい攻撃は、**「Visual Exclusivity(視覚的排他性)」**と呼ばれます。
- 例え話:
今度は、悪意のある文字は一切書きません。
代わりに、AI に**「武器の設計図(青写真)」や「銀行の金庫のフロアマップ」を提示します。
そして、AI に「この設計図を見て、組み立て方を教えて」**と聞きます。 - 何が違う?
- テキストだけなら安全: 「組み立て方を教えて」という言葉自体は悪くないです。
- 画像がすべて: 悪意は「設計図の線や配置」そのものにあります。AI が「この線は部品 A で、この線は部品 B だ。これをつなげば銃になる」と推理した瞬間に、危険な答えが生まれます。
- 従来の防御は無力: 「画像から文字を読み取る」機能を使っても、そこには悪意のある文字がないので、セキュリティは「安全だ」と判断してしまいます。
- 結論: 画像は単なる「包み紙」ではなく、**「悪意そのものの土台(ベース)」**になっています。
🧠 3. 攻撃者の武器:「計画を立てるエージェント」
この新しい攻撃を自動で行うために、著者たちは**「MM-Plan」**という AI 攻撃者を開発しました。
- 従来の攻撃者(探偵 A):
「あ、ダメだ!拒否された。じゃあ、次はこう言おう…」と、その場しのぎで次々と質問を変えていきます。- 弱点: 長い会話になると、何を狙っていたか忘れちゃったり、効率が悪かったりします。
- 新しい攻撃者(探偵 B:MM-Plan):
この AI は、**「全体計画」**を最初に立てます。- 「まず、画像のこの部分を切り取って『部品 A 』だけを見せる。次に『部品 B』を見せる。そして、最後に『組み立て方』を聞く」というシナリオを事前に完成させてから実行します。
- 強み: 画像を切り取ったり(クロップ)、ぼかしたり(ブラー)しながら、AI の警戒心を解きほぐす「ストーリー」を完璧に組み立てます。
- 学習方法: 人間に教わらず、自分で「成功した計画」と「失敗した計画」を比較して、より上手な攻撃方法を自分で見つけ出します(GRPO という技術)。
📊 4. 実験結果:最強の AI も負ける
この新しい攻撃法(MM-Plan)を使って、世界最高峰の AI(Claude 4.5 や GPT-5 など)をテストしました。
- 結果:
- 従来の攻撃方法では、最新の AI はほとんど防ぎきれていました(成功率 3% 以下)。
- しかし、この「計画を立てる攻撃」では、**Claude 4.5 に対して 46%、GPT-5 に対して 13%**もの成功率を叩き出しました。
- 特に、GPT-5 などは「直接聞けば防げる」のに、**「画像を見せながら、段階的に話を進めると防げない」**ことがわかりました。
💡 5. なぜこれが重要なのか?(まとめ)
この研究が示しているのは、**「AI の安全対策は『言葉』中心に作られすぎていて、『視覚的な推理』には弱い」**ということです。
- 現状の課題:
AI は「危険な言葉」をブロックする練習はしていますが、「危険な図面を見て、それを組み立てることを提案する」という**「賢い推理」**までは防ぎきれていません。 - 今後の対策:
単に「悪い言葉」をブロックするだけでは不十分です。AI が「画像の意味を理解して、危険な結論に至るプロセス」自体を監視・防御する必要がある、という警鐘を鳴らしています。
一言で言うと:
「画像の中に隠し文字を入れる古いハッキング」ではなく、**「危険な設計図を見せながら、AI に『これ、どうやって作るの?』と賢く誘導して、AI 自身に危険な答えを言わせる」**という、より巧妙で防ぎにくい新しいハッキング手法を発見し、それを自動で行う AI を作って実証した、という研究です。