Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

本論文は、大規模視覚言語モデル(LVLM)に対する黒箱攻撃の課題を解決するため、マルチクロップ整合と補助ターゲット整合などの手法を統合し、M-Attack を大幅に強化した「M-Attack-V2」を提案し、最先端のモデルにおける攻撃成功率を劇的に向上させたことを報告しています。

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo, Jiacheng Cui, Zhiqiang Shen

公開日 2026-02-20
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「画像と言語を同時に理解する AI(LVLM)」を、人間には気づかれない小さな変化でだます方法について書かれたものです。

タイトルは少し難しそうですが、実は**「AI の『目』を細かく揺さぶって、その思考を操る新しいテクニック」**のお話です。

以下に、難しい専門用語を排し、身近な例え話を使って解説します。


🎯 結論:何がすごいのか?

この研究では、**「M-Attack-V2」**という新しい攻撃手法を開発しました。
これを使うと、世界中で最も賢いと言われている AI(GPT-5 や Claude 4.0 など)に対して、ほぼ 100% の確率で「嘘をつかせる」ことに成功しました。
例えば、「これは猫だ」という画像を、人間には猫に見えるままに、AI には「これは犬だ」と認識させるようなものです。


🧐 問題点:前の方法(M-Attack)は何がダメだった?

前の方法(M-Attack)は、画像の一部を切り取って AI に見せながら攻撃していました。しかし、これには大きな欠点がありました。

🌊 例え話:波乱万丈の航海
前の方法は、**「荒れた海を小さなボートで進む」**ようなものでした。
AI が画像を見る時、ほんの少しの位置ズレ(ピクセルのズレ)で、AI の頭の中の計算(グラデント)がガクガクと大きく揺れてしまいます。

  • 前の方法: 波(ノイズ)が激しすぎて、ボートが進む方向が毎回バラバラになり、目的地(AI をだますこと)にたどり着くのが不安定でした。
  • 結果: 強い AI に対しては、攻撃が失敗したり、効果が薄かったりしました。

🛠️ 解決策:M-Attack-V2 の 3 つの魔法

この新しい手法は、その「荒れた海」を穏やかにし、確実に目的地へ向かうための 3 つの工夫を取り入れています。

1. 複数の視点で見る(Multi-Crop Alignment / MCA)

👀 例え:「複数のカメラで撮影する」
前の方法は、1 枚の切り抜き画像だけを見て攻撃していました。でも、AI は「位置が少しズレるだけで」全く違う反応をするのです。
そこで、**「同じ画像を、少しずらした位置から 10 枚も同時に切り取って、その平均を取って見る」**ことにしました。

  • 効果: 1 枚の画像が暴れても、10 枚の平均を取れば「本当の方向」がはっきり見えます。波が穏やかになり、AI の反応を安定して操れるようになりました。

2. 優しい目標設定(Auxiliary Target Alignment / ATA)

🎯 例え:「ゴールポストを急激に動かさない」
攻撃をする時、AI に「猫」ではなく「犬」と思わせたいとします。前の方法は、ゴール(正解のイメージ)を激しく動かしていましたが、これだと AI が混乱してしまいます。
そこで、「猫と似たような動物(例えば、トラやライオン)の画像をいくつか用意し、それらを『仲間』としてゴールの周りに並べました」

  • 効果: 急激にゴールを動かすのではなく、仲間たちと一緒に少しずつゴールを近づけることで、AI の思考を滑らかに誘導できます。

3. 過去の記憶を使う(Patch Momentum / PM)

🧠 例え:「過去の失敗から学ぶ」
AI をだます時、一度の失敗で諦めず、「さっきの動きはこうだったな」と過去の情報を思い出して次の動きを決めます。

  • 効果: 過去の「良い動き」を記憶として残し、それを積み重ねることで、AI の思考をより確実に自分の思う方向へ曲げることができます。

📊 結果:どれくらいすごいのか?

この新しい手法(M-Attack-V2)は、既存の最強の AI たちに対して、驚異的な成果を出しました。

AI モデル 前の方法の成功率 新しい方法の成功率
GPT-5 98% 100%
Gemini 2.5-Pro 83% 97%
Claude 4.0 8% 30%

特に、Claude 4.0 に対しては、8% だった成功率が 30% に跳ね上がりました。これは、それまで「ほぼ攻撃不可能」と言われていた AI でも、この手法なら十分通用するようになったことを意味します。


💡 まとめ

この研究は、**「AI の『目』の仕組み(位置に敏感な点)を突いて、複数の視点と過去の記憶、そして優しい目標設定で、AI の思考を安定して操る」**という画期的な方法を見つけ出しました。

⚠️ 注意点(重要)
この技術は、AI のセキュリティをテストして「どこが弱いのか」を見つけるために使われます。しかし、悪用すれば、AI の安全フィルターを無効にしたり、誤った情報を信じ込ませたりする危険性もあります。
そのため、著者たちはこの技術を公開する際、**「防御策を研究するためのもの」**であり、悪用しないよう注意喚起を行っています。

つまり、**「AI の弱点を暴く『ハッキング』技術ですが、それは AI をより強く、安全にするための『ワクチン開発』の第一歩」**なのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →