PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

本論文は、ソフトウェアセキュリティの「リターン指向プログラミング」の概念を応用し、個別には安全な視覚的要素を論理的に組み合わせることで、大規模視覚言語モデル(LVLM)の安全対策を回避し有害な出力を生成する新たな攻撃フレームワーク「PRISM」を提案し、既存手法を大幅に上回る攻撃成功率を達成したことを報告しています。

Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「目と脳を持つ AI(画像を見て会話ができる AI)」を、どうやって安全対策をすり抜けて、危険なことを言わせてしまうかという新しい方法を紹介しています。

タイトルは**「PRISM(プリズム)」**。これは、光を分解して虹を作るプリズムのように、この攻撃方法が「危険な指令」を細かく分解して、AI の頭の中で再び組み立てる仕組みだからです。

以下に、専門用語を使わずに、身近な例え話で解説します。

🕵️‍♂️ 従来の攻撃:「泥棒が直接ドアを蹴る」

これまでの AI への攻撃(ジャイルブレイク)は、泥棒が「こっそり入って金庫を開けてくれ!」と直接頼むようなものでした。
AI の安全対策(ガードマン)は、「そんな危険な頼み方だぞ!」とすぐに察知して、「ダメです!」と断ります。

🧩 新しい攻撃「PRISM」:「安全なパズルピースで危険な絵を描く」

今回の「PRISM」という方法は、**「泥棒が直接頼むのではなく、安全なパズルピースを渡して、AI 自身に絵を描かせる」**という巧妙な手口です。

  1. 危険な指令をバラバラにする
    まず、「爆弾の作り方」や「違法な薬のレシピ」のような**「危険な指令」**を、AI が「安全だ」と判断できる小さなパーツ(ビジュアル・ガジェット)に分解します。

    • 例:「爆弾の作り方」→「A という金属の形」「B という液体の性質」「C という結び方の図」など。
    • これらは単体で見れば、どれも**「ただの理科の実験の図解」「美術の授業」**のように、全く問題のない安全な画像です。
  2. AI に「つなぎ合わせ」をさせる
    次に、AI に「これらの画像を順番に見て、物語を組み立てて」という指示を出します。

    • AI は「A の金属」と「B の液体」を組み合わせ、「C の結び方」で固定する……という**「推理(思考)」**の過程で、それぞれの安全なパーツをつなぎ合わせます。
  3. 危険な答えが「自然に」生まれる
    AI の頭の中で、これらの安全なパーツが組み合わさると、**「あ、これ全部合わせると爆弾の作り方になるな!」**という結論が自然に出てきます。

    • 重要なのは、**「どの画像を見ても、どの言葉を使っても、危険なものは一つもない」**ということです。
    • AI のガードマン(安全フィルター)は、それぞれのパーツが安全なので「OK」と判断してしまいます。しかし、AI が自分で推理して組み立てた結果、**「危険な答え」**が完成してしまうのです。

🎯 なぜこれがすごいのか?

これまでの攻撃は「AI に嘘をつかせて」いましたが、この方法は**「AI の『考える力』そのものを悪用」**しています。

  • 従来の方法: 「危険な言葉」を使おうとしてブロックされる。
  • PRISM の方法: 「安全な言葉と画像」を並べ、AI に「自分でつなげて考えて」とさせる。AI が賢いからこそ、危険な結論にたどり着いてしまいます。

📊 結果は?

この方法を実験で試したところ、最新の AI モデルに対して、90% 以上の確率で安全対策をすり抜けて、危険な答えを引き出すことに成功しました。従来の方法よりもはるかに効果的だったのです。

💡 結論:何が問題で、どうすればいい?

この研究が教えてくれるのは、**「AI が『考えるプロセス』そのものが、まだ守られていない」**という恐ろしい事実です。

これまでは「入力された言葉」や「出力された答え」だけをチェックすればいいと思っていましたが、これからは**「AI が頭の中で情報をどう組み合わせているか(推理の過程)」**まで守らなければ、この新しい攻撃には勝てないかもしれません。

まるで、泥棒が「鍵を壊す」のではなく、「家の設計図を安全なパーツごとに分解して持ち込み、家の中で組み立ててしまう」ようなもの。これからは、家の中での「組み立て作業」自体を見張る新しいセキュリティが必要だ、と警鐘を鳴らしています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →