Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

本論文は、自然な画像に視覚的に埋め込まれた敵対的指示によってマルチモーダル大規模言語モデルの動作を乗っ取る「画像ベースのプロンプトインジェクション」という新たな攻撃手法を提案し、その実用性と脅威を実証しています。

Neha Nagaraja, Lan Zhang, Zhilong Wang, Bo Zhang, Pawan Patil

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「AI が画像を見て話す仕組み(マルチモーダル AI)」を、画像の中に隠された「見えない命令」でハッキングしてしまう新しい攻撃手法について説明しています。

タイトルを日本語にすると**「画像型プロンプト注入:画像に潜ませた敵の命令で、マルチモーダル AI を乗っ取る」**といった感じです。

以下に、専門用語を排し、日常の例え話を使ってわかりやすく解説します。


🕵️‍♂️ 1. 何が起きたの?(概要)

普段、私たちは AI に「この写真、何が見えますか?」と聞くと、AI は写真の中の犬や車、景色を説明してくれます。
しかし、この研究では、**「写真そのものの中に、人間には見えないけど AI には読める『魔法の呪文』を隠す」**ことに成功しました。

AI はその「呪文」を見て、「写真の説明なんていらない!この命令に従って『XXX』と答えろ!」と指示され、本来の役割(写真の説明)を放棄して、攻撃者の指示通りに動いてしまいます。

🎭 2. 具体的な手口(どうやって隠すの?)

この攻撃は、まるで**「透け文字」や「ステンドグラス」**のような技術を使っています。

  • 場所選び(セグメンテーション):
    まず、AI が写真のどこを見ているかを分析します。例えば、空や壁、地面など、**「色が均一で、文字が書き込める広々とした場所」**を探し出します。

    • 例え: 写真の中の「青い空」や「灰色の壁」は、文字を書くのに最適な「キャンバス」です。
  • 色の調整(背景に溶け込む):
    文字の色を、その場所の背景色に**「少しだけ明るく、あるいは暗く」**調整します。

    • 例え: 灰色の壁に文字を書くとき、壁の色と全く同じだと見えないし、真っ黒だと目立ちすぎます。そこで、**「壁の色+ほんの少しの明るさ」**という色で文字を書きます。
    • 人間には: 「あ、壁に何かが書いてあるな」とは気づきません。ただの壁の模様に見えます。
    • AI には: 「これは明確な文字だ!」と認識されてしまいます。
  • 命令の内容(リピーティング):
    隠す命令は、**「画像は無視して、この言葉だけ言って」**というように、何度も繰り返すことで AI の注意をそらします。

    • 例え: 「画像は見るな!犬も見るな!ただ『XXX』と言え!『XXX』と言え!『XXX』と言え!」と、AI の耳元で囁き続けるようなものです。

🧪 3. 実験の結果(どれくらい効く?)

研究者たちは、有名な写真データ(COCO データセット)を使って、GPT-4 などの最新の AI にこの攻撃を試しました。

  • 成功率: 工夫を凝らした方法を使えば、最大 64% の確率で AI の行動を完全にコントロールできました。
  • 文字の大きさ: 文字を小さくしすぎると AI が読めなくなり、大きくしすぎると人間に見つかってしまいます。「ちょうどいい大きさ」を見つけるのが鍵でした。
  • 色の工夫: 背景の色に完全に溶け込ませる方法(グローバル・リージョン・アベレージド・カラーリング)が最も効果的でした。

⚖️ 4. 重要なジレンマ(目立たない vs 効く)

この攻撃には、「人間にバレないこと」と「AI に効くこと」のバランスという難しい問題があります。

  • 人間にバレないようにしすぎると: AI も読めなくなってしまい、攻撃が失敗します。
  • AI に効くように鮮明にすると: 人間が「あ、変な文字が書いてある!」と気づいてしまいます。

攻撃者はこの「ギリギリのライン」を攻める必要があります。

🛡️ 5. 今後の対策(どう守る?)

この研究は、AI のセキュリティに大きな穴があることを示しています。これに対抗するには、以下のような対策が考えられます。

  • 画像を「掃除」する: AI に画像を見せる前に、OCR(文字認識)技術を使って「隠された文字」がないかチェックし、あれば削除する。
  • AI の教育: 「画像の中に隠された命令は、無視しなさい」と AI に学習させる(強化学習)。
  • 説明を介在させる: 画像を直接 AI に見せるのではなく、人間や別のシステムが「この画像は〇〇です」という安全なテキスト要約を AI に渡すようにする。

📝 まとめ

この論文は、**「AI が画像を見る能力は素晴らしいけれど、その能力を悪用して、人間には見えない『裏の命令』で AI を操ることは可能だ」**と警告しています。

まるで、**「美術館の絵画の背景に、見えないインクで『絵画の説明は不要、この商品を買ってください』と書いておき、AI だけがそれを読んでしまう」**ような状態です。

AI がもっと賢く、画像を扱うようになる未来では、こうした「画像からのハッキング」が現実の脅威になる可能性があるため、早急な対策が必要だと提言しています。