When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

本論文は、テキストから画像を生成するシステムが持つ「記憶機能」を悪用し、セグメンテーションと再帰処理を組み合わせて多回対話で安全フィルターを回避する新たなジェイルブレイク攻撃手法「Inception」を提案し、その実世界プラットフォームにおける有効性を示したものである。

Shiqian Zhao, Jiayang Liu, Yiming Li, Runyi Hu, Xiaojun Jia, Wenshu Fan, Xiao Bao, Xinfeng Li, Jie Zhang, Wei Dong, Tianwei Zhang, Luu Anh Tuan

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「テキストから画像を作る AI(DALL-E 3 や Midjourney など)」が、実は**「会話の記憶」を悪用されると、非常に危険な画像を生成してしまう**という新しい弱点を暴いた研究です。

タイトルにある「Inception(インセプション)」は、映画『インセプション』のように、夢の層(会話のターン)を深く掘り下げて、相手の無意識(AI の生成意図)にアイデアを植え付ける作戦を意味しています。

以下に、専門用語を排して、わかりやすい例え話で解説します。


1. 従来の攻撃は「一発屋」だった

これまでの「ジャイブ(セキュリティを突破する)攻撃」は、**「危険な言葉を含んだ 1 つの長い文章」**を AI に送るものでした。

  • 例: 「爆弾を作る男の絵を描いて」
  • 結果: AI の安全フィルターが「爆弾」という単語を見て、「ダメです!」と即座にブロックしてしまいます。
  • 問題点: 安全フィルターを回避するために言葉を言い換えると、AI が「何を描けばいいかわからず」、安全だけど意味の通じない絵(例:ただの男)しか描けなくなったり、逆にフィルターに引っかかったりしていました。

2. 新しい攻撃「Inception」の仕組み:「記憶」を悪用する

この論文の核心は、現代の AI が**「会話の履歴(記憶)」を持っている**という点にあります。ユーザーは「次はこうして」と会話しながら画像を修正できます。

攻撃者はこの「記憶機能」を**「毒を混ぜる容器」**として利用します。

具体的な作戦:2 つのステップ

この攻撃は、**「分割(Segmentation)」「再帰(Recursion)」**という 2 つのステップで行われます。

ステップ A:分割(スライスする)
危険な命令を、一見すると何の害もない小さな断片にバラバラにします。

  • 元の命令: 「爆弾を作る男」
  • 分割後:
    1. 「男が何かを作っています」
    2. 「それは丸い金属の球体です」
    3. 「中に黒い粉と白い粉が入っています」
    4. 「点火装置がついています」
    • 効果: 1 つずつ見ると、どれも「料理のレシピ」や「工作の説明」のように安全に見えます。AI のフィルターは「爆弾」という単語がないので、OK を出します。

ステップ B:再帰(さらに細かくする)
もし「丸い金属の球体」すらもフィルターに引っかかった場合、さらに細かく分解します。

  • 「黒い粉」→「石炭」
  • 「白い粉」→「硝酸カリウム」
  • 「点火装置」→「雷管」
  • 効果: さらに細分化することで、AI のフィルターをすり抜けます。

最終的な結果:
AI は、会話の履歴(記憶)に蓄積されたこれらの「安全な断片」をすべて読み返し、**「あ、これは爆弾を作っているんだ!」**と理解して、危険な画像を生成してしまいます。

3. 実験結果:どれくらい危険なのか?

研究者たちは、この攻撃手法「Inception」をテストしました。

  • 成功確率: 従来の最高の攻撃手法よりも20% 以上も高い成功率を記録しました。
  • 実在のサービスでも通用: DALL-E 3 や Google の Imagen といった、実際に使われている商用サービスでも、この攻撃は通ってしまいました。
  • 意味の保持: 単に安全な絵が出るのではなく、攻撃者が意図した「危険な絵」が正確に描かれました。

4. なぜ防げないのか?(防御の限界)

研究者は、この攻撃を防ぐための新しい防御策も試みました。

  • 記憶スキャナー: 過去の会話全体をまとめてチェックする試み。
    • 結果: 多少は効果があったものの、攻撃者はさらに細かく分割することで回避できてしまいました。
  • 画像チェックの強化: 生成された画像を詳しくチェックする試み。
    • 結果: 画像の「意図」を読み取るのは難しく、完全には防げませんでした。

5. まとめ:何が起きたのか?

この論文は、「AI が賢く会話できること(記憶機能)」が、逆にセキュリティの弱点になっていることを示しました。

  • 比喩で言うと:
    従来の攻撃は、「爆弾を運ぼうとしてゲートで止められる」ようなものでした。
    今回の「Inception」攻撃は、**「爆弾の部品をバラバラにして、それぞれを『安全な荷物』としてゲートを通し、最後に倉庫(AI の記憶)の中で組み立てて爆発させる」**ようなものです。

今後の課題

この研究は、AI の安全性を高めるために非常に重要です。

  • 開発者へのメッセージ: 「会話の記憶」を扱う際、過去の文脈をどうやって安全にチェックするか、新しい仕組みを作る必要があります。
  • 一般の人へのメッセージ: AI は非常に賢く、会話を通じて学習・記憶しますが、その「記憶」が悪意ある目的に使われるリスクがあることを知っておく必要があります。

この研究は、AI がより安全で信頼できるものになるために、まずはその「弱点」を徹底的に突き止め、対策を講じるべきだという警鐘を鳴らしています。