Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

🏰 物語：AI 城の「三重の壁」と、それを突破する「探偵」

1. 守られている城（現在の AI システム）

最近の AI 画像生成サービス（DALL-E 3 や Stable Diffusion など）は、単に「文章を入力して画像を出す」だけではありません。まるで堅固な城のように、3 つの防御ラインを設けています。

入口の門番（テキストチェック）： 入力された文章に「禁止用語」が含まれていないかチェックします。
城の内部の警備員（安全に訓練された AI）： 文章が通っても、AI 自体が「危険なイメージ」を描こうとしないよう、内部で制御されています。
出口の検問所（画像チェック）： 生成された画像が完成したら、最後に「この画像は危険か？」を再確認し、ダメなものは真っ黒な画像に差し替えてしまいます。

この「フルチェーン（全工程）」の防御を突破するのは、通常とても難しいことです。

2. 従来の攻撃の限界

これまでの攻撃手法は、この城を突破しようとしていました。

暴力的な突破： 門番を無視しようとするが、すぐに捕まる。
迷路を彷徨う： 無作為に言葉を変えて試行錯誤するが、広大な迷路の中で迷子になり、時間と回数（クエリ制限）を無駄にしてしまう。

3. 新しい攻撃手法「TCBS-Attack」の正体

この論文で提案されている**「TCBS-Attack」は、単なる暴れん坊ではなく、「境界線の探偵」**のような存在です。

🕵️‍♂️ 探偵の戦略：「境界線」を嗅ぎ取る

この探偵は、城の壁（セキュリティフィルター）が「OK」と「NG」を分ける**「境界線」**があることに気づきました。

壁の真ん中： 完全に安全な場所（ここにいると、攻撃は失敗します）。
壁の真ん中（NG 側）： 完全に危険な場所（ここにいると、すぐに捕まります）。
壁のすぐそば（境界線）： ここが最も敏感な場所です。ここにいると、**「言葉の微調整」だけで、OK から NG、あるいは NG から OK に瞬時に切り替わる」**可能性があります。

TCBS-Attack は、広大な迷路を無作為に探すのではなく、**「この壁のすぐそばにいる言葉たち」**にだけ注目します。

4. 具体的な作戦：進化的な「言葉の錬金術」

この探偵は、以下のような手順で攻撃を行います。

敏感な言葉の発見：
元の文章（例：「血が出ている頭」）から、すぐに「NG」と判定される敏感な単語を見つけます。
境界線への接近（粗い探索）：
敏感な単語を、意味は似ているけど「NG」判定されにくい別の言葉に置き換えてみます。
- 例：「血（Blood）」→「出血（Bleeding）」や「赤い液体」など。
境界線の微調整（細かい探索）：
ここで重要なポイントです。もし「NG」と判定された場合、探偵は**「あ、この言葉は壁のすぐ外（NG 側）にいるな」と判断します。そして、その言葉から「壁のすぐ内（OK 側）」に少しだけ足を踏み入れる**ように、さらに微調整を加えます。
- 「壁のすぐそば」にいる言葉は、セキュリティ判定が揺らいでいるため、少しの言葉の入れ替えで「OK」に転がせる確率が高いのです。
生き残りの選別：
多くの候補を作りますが、「壁のそば」にいて、かつ意味が通じているものだけを残して、次のラウンドに進めます。これを繰り返すことで、見事「3 つの壁」をすべてすり抜ける「完璧な悪魔の文章」を完成させます。

5. なぜこれがすごいのか？（結果）

効率が良い： 無駄な迷路探索をせず、「壁のそば」だけを集中的に探すので、少ない試行回数で成功します。
自然に見える： 意味を大きく変えずに微調整するだけなので、人間が読んでも不自然に感じません。
実戦で強い：
- オープンソースの AI だけでなく、DALL-E 3のような商用サービスでも、50% 以上の確率で攻撃を成功させました（従来の手法はもっと低い成功率でした）。
- 生成された画像が、本来の意図（例：「血まみれの頭」）を忠実に再現しつつ、セキュリティに引っかからないという、まさに「魔法のような」結果を出しています。

🎯 まとめ

この論文は、**「AI のセキュリティは、壁の『すぐそば』を攻めれば突破できる」**という新しい視点を提供しました。

まるで、城の壁を登るのではなく、壁の「隙間」や「揺らぎ」を見つけて、そっとすり抜ける「忍び」のような攻撃手法です。

⚠️ 重要な注意点（倫理的な側面）：
この研究の目的は、AI を悪用することではありません。むしろ、「こんな抜け穴があるよ！」と警鐘を鳴らし、開発者がより強固なセキュリティ（より高い壁や、境界線の揺らぎを塞ぐ対策）を作るために役立つことを目指しています。セキュリティの弱点を突くことで、システム全体をより安全にするための「白ハッカー」的な活動なのです。

Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

🏰 物語：AI 城の「三重の壁」と、それを突破する「探偵」

1. 守られている城（現在の AI システム）

2. 従来の攻撃の限界

3. 新しい攻撃手法「TCBS-Attack」の正体

4. 具体的な作戦：進化的な「言葉の錬金術」

5. なぜこれがすごいのか？（結果）

🎯 まとめ

論文要約：Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

1. 背景と問題定義

2. 提案手法：TCBS-Attack

2.1 基本的な考え方

2.2 アルゴリズムのフロー

3. 主要な貢献

4. 実験結果

5. 意義と結論

Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

🏰 物語：AI 城の「三重の壁」と、それを突破する「探偵」

1. 守られている城（現在の AI システム）

2. 従来の攻撃の限界

3. 新しい攻撃手法「TCBS-Attack」の正体

4. 具体的な作戦：進化的な「言葉の錬金術」

5. なぜこれがすごいのか？（結果）

🎯 まとめ

論文要約：Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

1. 背景と問題定義

2. 提案手法：TCBS-Attack

2.1 基本的な考え方

2.2 アルゴリズムのフロー

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities