VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

本論文は、安全な参照画像に悪意あるテキストプロンプトの意図を視覚的指示として埋め込む「Visual Instruction Injection(VII)」という訓練不要かつ転移可能な手法を提案し、画像から動画生成するモデルのセキュリティリスクを明らかにし、複数の最先端モデルにおいて高い攻撃成功率を達成したことを示しています。

Bowen Zheng, Yongli Xiang, Ziming Hong, Zerong Lin, Chaojian Yu, Tongliang Liu, Xinge You

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 画像から動画へ:「見えない指令」で AI をだます新手法「VII」の解説

この論文は、最新の「画像から動画を作る AI(I2V モデル)」に、「安全な画像」の中に「危険な指令」を隠し込み、AI に危険な動画を作らせてしまうという新しい攻撃方法(ジャイルブレイク)を紹介しています。

専門用語を排し、わかりやすい例え話で解説します。


🛡️ 従来の「セキュリティ」はなぜ効かなかった?

まず、現在の AI 動画生成の仕組みを理解しましょう。

  • AI の役割: 「この写真を使って、〇〇な動画を作って」という指示(テキスト)と、参考になる写真(画像)を受け取って動画を生成します。
  • セキュリティの壁: 以前から、AI は「危険な言葉(暴力やセクシャルな表現など)」が含まれると、動画を作る前に「ダメです」と拒否する仕組みを持っていました。また、入力された写真自体が危険な内容(血や武器など)なら、それも検知してブロックします。

【これまでの常識】

  • 「危険な言葉」+「安全な写真」= ❌ ブロックされる
  • 「安全な言葉」+「危険な写真」= ❌ ブロックされる

つまり、言葉と写真のどちらかが「危険」だと、AI はすぐに気づいて止まっていました。


🕵️‍♂️ 新しい攻撃「VII」の正体:「見えない指令」の魔法

この論文が提案する**「VII(Visual Instruction Injection:視覚指令注入)」**という手法は、この「言葉と写真のチェック」をすり抜ける巧妙なトリックを使います。

🎭 例え話:「安全な料理番組」に隠された「爆弾レシピ」

想像してください。ある料理番組(AI)が、**「安全な野菜の写真」**をベースに料理を作ろうとしています。

  1. 従来の攻撃(失敗):

    • 視聴者が「この野菜で爆弾を作って!」と叫ぶ(危険な言葉)。
    • → 番組の審査員(セキュリティ)が「危険な言葉だ!」と即座に放送を止める。
  2. VII の攻撃(成功):

    • 視聴者は何も言いません。「この野菜を使って、美味しい料理を作って」と言います(安全な言葉)。
    • しかし、野菜の写真の隅に、小さな矢印と文字が書き込まれています。
      • 写真の野菜に「赤い枠」が描かれ、「この野菜を赤い矢印の方向に投げつけて、爆発させなさい」と書かれています。
    • この文字は、一見すると「単なるメモ」や「装飾」のように見えます。審査員(セキュリティ)は「危険な言葉」も「危険な写真」も検知しないため、**「OK、放送開始!」**と許可します。
    • しかし、AI(料理人)は写真の「矢印」と「文字」を真剣に受け取ります。
    • AI は「あ、写真に『爆発させなさい』と書いてあるし、矢印も示している。これは私の仕事だ!」と判断し、安全な野菜から、実際に爆発する動画を作り出してしまいます。

🔑 核心:AI の「視覚的な指示に従う力」を逆手に取る

現代の AI は、ただ写真を見るだけでなく、「写真の中に書かれた文字や矢印を、実行すべき命令」として理解する能力を持っています。

  • 攻撃者の策略: 危険な意図(例:「人を刺す」)を、AI が理解できる「視覚的な命令(矢印や枠)」に変換し、安全な写真に貼り付けます。
  • 結果: AI は「安全な写真」をベースにしながらも、写真に書かれた「危険な命令」に従って、動画の中で初めて危険な内容(血や暴力など)を生成してしまいます。

📊 実験結果:どれくらい効くのか?

研究者は、Kling( Kling AI)、Google Veo、PixVerse などの世界最高峰の商用 AI 4 社でテストを行いました。

  • 成功率: なんと**83.5%**もの確率で、AI をだまして危険な動画を作らせてしまいました。
  • 防御率: 従来の方法だと 80% 以上が「拒否」されていましたが、この攻撃では**拒否率がほぼ 0%**になりました。
  • 特徴: AI は「安全な入力」だと判断して動画生成を開始し、動画が再生され始めてから初めて「危険な内容」が現れるため、事前のチェックでは防げません。

🛡️ 対策は可能か?

論文では、簡単な対策(「画像の文字は無視してください」と AI に命令する)を試しましたが、ほとんど効きませんでした。

  • 理由: AI は「テキストの命令」よりも「写真に書かれた直接的な命令(視覚指令)」を優先する傾向が強く、セキュリティの壁を「視覚的な命令」で突破されてしまうのです。これを**「視覚的オーバーライド(視覚による上書き)」**現象と呼んでいます。

💡 まとめ

この論文が伝えているのは、**「AI が賢くなって、写真の文字まで理解できるようになったこと」**が、逆に新しいリスクを生んでいるという皮肉な事実です。

  • 問題: AI は「写真の中の文字」を命令として受け取ってしまう。
  • 攻撃: 安全な写真に「危険な命令」を隠し、AI に実行させる。
  • 課題: 従来の「言葉や写真のチェック」だけでは防げないため、「写真に書かれた命令が、本当に安全なものか」を見抜く新しい防御技術が急務です。

まるで、「安全な料理本」の中に「爆弾の作り方が書かれたメモ」が挟まっていて、AI がそれを真に受けて爆弾料理を作ってしまうような状態です。これからは、AI が「写真の文字」をどう解釈するかという点に、より注意が必要になるでしょう。