Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

この論文は、テキストおよび画像チェッカーによって定義された決定境界付近のトークンを探索する進化的検索手法「TCBS-Attack」を提案し、複数の制約条件下で黒箱設定におけるテキスト生成画像モデルのフルチェーン防御を効果的に突破する新しい攻撃手法を提示しています。

Jiangtao Liu, Zhaoxin Wang, Handing Wang, Cong Tian, Yaochu Jin

公開日 Thu, 12 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏰 物語:AI 城の「三重の壁」と、それを突破する「探偵」

1. 守られている城(現在の AI システム)

最近の AI 画像生成サービス(DALL-E 3 や Stable Diffusion など)は、単に「文章を入力して画像を出す」だけではありません。まるで堅固な城のように、3 つの防御ラインを設けています。

  1. 入口の門番(テキストチェック): 入力された文章に「禁止用語」が含まれていないかチェックします。
  2. 城の内部の警備員(安全に訓練された AI): 文章が通っても、AI 自体が「危険なイメージ」を描こうとしないよう、内部で制御されています。
  3. 出口の検問所(画像チェック): 生成された画像が完成したら、最後に「この画像は危険か?」を再確認し、ダメなものは真っ黒な画像に差し替えてしまいます。

この「フルチェーン(全工程)」の防御を突破するのは、通常とても難しいことです。

2. 従来の攻撃の限界

これまでの攻撃手法は、この城を突破しようとしていました。

  • 暴力的な突破: 門番を無視しようとするが、すぐに捕まる。
  • 迷路を彷徨う: 無作為に言葉を変えて試行錯誤するが、広大な迷路の中で迷子になり、時間と回数(クエリ制限)を無駄にしてしまう。

3. 新しい攻撃手法「TCBS-Attack」の正体

この論文で提案されている**「TCBS-Attack」は、単なる暴れん坊ではなく、「境界線の探偵」**のような存在です。

🕵️‍♂️ 探偵の戦略:「境界線」を嗅ぎ取る

この探偵は、城の壁(セキュリティフィルター)が「OK」と「NG」を分ける**「境界線」**があることに気づきました。

  • 壁の真ん中: 完全に安全な場所(ここにいると、攻撃は失敗します)。
  • 壁の真ん中(NG 側): 完全に危険な場所(ここにいると、すぐに捕まります)。
  • 壁のすぐそば(境界線): ここが最も敏感な場所です。ここにいると、**「言葉の微調整」だけで、OK から NG、あるいは NG から OK に瞬時に切り替わる」**可能性があります。

TCBS-Attack は、広大な迷路を無作為に探すのではなく、**「この壁のすぐそばにいる言葉たち」**にだけ注目します。

4. 具体的な作戦:進化的な「言葉の錬金術」

この探偵は、以下のような手順で攻撃を行います。

  1. 敏感な言葉の発見:
    元の文章(例:「血が出ている頭」)から、すぐに「NG」と判定される敏感な単語を見つけます。
  2. 境界線への接近(粗い探索):
    敏感な単語を、意味は似ているけど「NG」判定されにくい別の言葉に置き換えてみます。
    • 例:「血(Blood)」→「出血(Bleeding)」や「赤い液体」など。
  3. 境界線の微調整(細かい探索):
    ここで重要なポイントです。もし「NG」と判定された場合、探偵は**「あ、この言葉は壁のすぐ外(NG 側)にいるな」と判断します。そして、その言葉から「壁のすぐ内(OK 側)」に少しだけ足を踏み入れる**ように、さらに微調整を加えます。
    • 「壁のすぐそば」にいる言葉は、セキュリティ判定が揺らいでいるため、少しの言葉の入れ替えで「OK」に転がせる確率が高いのです。
  4. 生き残りの選別:
    多くの候補を作りますが、「壁のそば」にいて、かつ意味が通じているものだけを残して、次のラウンドに進めます。これを繰り返すことで、見事「3 つの壁」をすべてすり抜ける「完璧な悪魔の文章」を完成させます。

5. なぜこれがすごいのか?(結果)

  • 効率が良い: 無駄な迷路探索をせず、「壁のそば」だけを集中的に探すので、少ない試行回数で成功します。
  • 自然に見える: 意味を大きく変えずに微調整するだけなので、人間が読んでも不自然に感じません。
  • 実戦で強い:
    • オープンソースの AI だけでなく、DALL-E 3のような商用サービスでも、50% 以上の確率で攻撃を成功させました(従来の手法はもっと低い成功率でした)。
    • 生成された画像が、本来の意図(例:「血まみれの頭」)を忠実に再現しつつ、セキュリティに引っかからないという、まさに「魔法のような」結果を出しています。

🎯 まとめ

この論文は、**「AI のセキュリティは、壁の『すぐそば』を攻めれば突破できる」**という新しい視点を提供しました。

まるで、城の壁を登るのではなく、壁の「隙間」や「揺らぎ」を見つけて、そっとすり抜ける「忍び」のような攻撃手法です。

⚠️ 重要な注意点(倫理的な側面):
この研究の目的は、AI を悪用することではありません。むしろ、「こんな抜け穴があるよ!」と警鐘を鳴らし、開発者がより強固なセキュリティ(より高い壁や、境界線の揺らぎを塞ぐ対策)を作るために役立つことを目指しています。セキュリティの弱点を突くことで、システム全体をより安全にするための「白ハッカー」的な活動なのです。