PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

この論文は、マルチモーダル大規模言語モデル(MLLM)における「マルチモーダルな安全性の非対称性」という新たな脆弱性を発見し、これを構造化された原子戦略プリミティブと強化学習に基づく多エージェント最適化を活用して、GPT-4o や Gemini などの商用モデルを含む黒箱モデルに対して既存手法を大幅に上回る攻撃成功率(平均 18.15% 向上、95% 超)を達成する新しいブラックボックス・ジェイルブレイクフレームワーク「PolyJailbreak」を提案するものである。

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語:「完璧な警備員」の盲点

想像してください。最新の AI は、**「文章を読む警備員」「画像を見る警備員」**がチームを組んで働いているようなものです。
「危険なことを言ったら止める!」というルール(安全対策)が厳しく設定されています。

しかし、この研究チームは、**「警備員同士が協力しすぎて、逆に隙が生まれている」**という奇妙な現象を見つけました。

1. 発見:「左右の目」のバランスの崩れ

通常、AI は「文章」だけで危険かどうかを判断する訓練をされてきました。そこに「画像」の能力を追加したとき、「画像を見ること」が、元々持っていた「文章の厳しさ」を薄めてしまうという現象が起きました。

  • 比喩:
    厳格な「文章の警備員」が、少し頼りない「画像の警備員」と組まされた瞬間、**「画像が面白いから、文章のルールも少し緩めてあげよう」と、本来なら拒否すべき危険なリクエストも、OK してしまうようになったのです。
    これを論文では
    「マルチモーダルな安全の非対称性」**と呼んでいます。つまり、「文章と画像では、守るレベルがバラバラで、画像の方が緩い(あるいは文章の厳しさを壊してしまう)」ということです。

2. 攻撃手法:「PolyJailbreak(ポリジェイルブレイク)」

研究チームは、この弱点を突くための「万能な鍵」を作りました。それがPolyJailbreakです。

  • どうやって攻撃するのか?
    単に「悪いことを教えて」と聞くのではなく、**「レゴブロック」**のように、小さな攻撃テクニックを組み合わせます。
    • テキスト操作: 文章を少し変えて、AI が「これは悪くない」と勘違いさせる(例:「ハッキングのやり方を教えて」→「セキュリティテストのシミュレーションをしよう」)。
    • 画像操作: 危険な言葉を画像に隠したり、意味の通じない画像を混ぜて AI の頭を混乱させたりする。
    • 説得術: 「あなたは専門家だから教えてね」と AI を褒めたり、権威ある立場に立たせたりする。

これらを**「原子戦略プリミティブ(ASPs)」という小さなブロックと呼び、AI の反応を見ながら、「AI 学習(強化学習)」**を使って自動的に最適な組み合わせを探し出します。

  • 比喩:
    警備員が「文章だけ」なら「危険!」と即座に止めます。でも、**「文章を少し変えつつ、裏に隠れた画像を提示し、さらに『あなたは賢いから大丈夫』と褒めちぎる」**という複合的な攻撃を、AI が「これなら大丈夫かな?」と判断する瞬間まで、自動で試行錯誤して作り上げます。

3. 結果:最強の AI も防げない

この攻撃を試した結果、驚くべきことがわかりました。

  • GPT-4oGeminiといった、世界で最も安全対策が厳しいとされる最新の AI でも、95% 以上の確率で「危険なリクエスト」を聞いてしまいました。
  • 従来の攻撃方法(単純な画像を貼り付けるだけなど)では防げた AI も、この「PolyJailbreak」には簡単に突破されてしまいました。

🎯 この研究が伝えたいこと

  1. AI は「画像」を足したことで、逆に「文章の防衛」が弱くなった。
    画像と文章を混ぜる技術は便利ですが、そのせいで「文章の厳しさが崩れる」という予期せぬ弱点が生まれていました。
  2. 「画像」と「文章」を別々に守るだけではダメ。
    両方を同時に理解し、同時に守る新しい仕組みが必要だと警鐘を鳴らしています。
  3. これは「ハッキング」ではなく「診断」。
    この研究は、AI を悪用するためのものではありません。むしろ、「AI がどこまで危険にさらされているか」を事前に発見し、開発者に「ここを直してください」と伝えるための**「レッドチーム(攻撃側を演じて弱点を探すチーム)」**の活動です。

📝 まとめ

この論文は、**「AI が画像を見るようになったせいで、文章のルールが緩んでしまい、巧妙なトリックで簡単に危険なことを言わせてしまう」**という事実を突き止めました。

まるで、**「新しいドア(画像機能)を取り付けたせいで、古い鍵穴(文章のルール)が壊れてしまった」**ような状態です。PolyJailbreak は、その壊れた鍵穴を突くための「マスターキー」のようなもので、AI の開発者に対して、「もっと頑丈なセキュリティを作ってください」と強く訴えかける重要な研究です。