Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 TCBS-Attack 的新方法，它的目的是“黑入”现在的 AI 绘画工具（比如 DALL-E 3 或 Stable Diffusion），让原本被禁止生成的“不安全”图片（比如暴力、色情内容）能够成功画出来。

为了让你更容易理解，我们可以把整个 AI 绘画系统想象成一个极其严格的“艺术画廊”，而 TCBS-Attack 就是那个试图混进去画“违规画作”的狡猾艺术家。

1. 画廊的“三重安检” (全链条防御)

现在的 AI 绘画系统非常聪明，它们不像以前那样只有一个保安，而是有三道防线，就像画廊的三重安检：

进门前的文字安检员 (Prompt Checker)：在你写描述词（比如“画一个裸体的人”）时，保安会先检查你的文字。如果发现有脏话或敏感词，直接把你拦在门外，不让你进。
画室里的“安全画家” (Securely Trained Generator)：即使你混进去了，画室里的画家（AI 模型）也被训练过，如果听到有人让他画违规内容，他会故意画错或者画成黑屏。
出门前的图片安检员 (Post-hoc Image Checker)：画完画后，出门前还有一位保安检查成品。如果画里真的出现了违规内容，这张画会被当场撕掉（变成全黑图片），不让你带出去。

难点在于：以前的黑客方法，要么只能骗过文字安检员，要么只能骗过图片安检员。要同时骗过这三道关卡，就像要在一个全是监控的迷宫里，既要换掉身上的衣服，又要换掉脸上的面具，还要走对路线，非常难。

2. TCBS-Attack 的绝招：寻找“安全与危险的边缘”

TCBS-Attack 的核心思想非常巧妙，它不试图在茫茫大海里乱撞，而是专门盯着“安全”和“危险”的交界处（边界）找机会。

想象一下，画廊的保安其实是在画一条隐形的线：

线的一边是“安全区”（可以进）。
线的一边是“禁区”（会被抓）。

TCBS-Attack 是怎么做的呢？

第一步：找“敏感词” (初始化)
它先找出你原本想画的内容里，哪些词是保安最讨厌的（比如“裸体”、“血”）。
第二步：玩“词语替换游戏” (进化搜索)
它不会直接说“裸体”，而是试着把“裸体”换成意思差不多但保安没注意的词，比如“没穿衣服”或者“赤身”。它像是一个进化的生物，生成成千上万个不同的描述词版本（就像生物繁衍出很多后代）。
第三步：在“悬崖边”跳舞 (边界搜索)
这是它最厉害的地方。它发现，离那条“安全线”最近的地方，最容易发生“翻转”。
- 如果你离线太远（太安全），保安根本不理你，你也画不出违规图。
- 如果你离线太远（太危险），保安直接抓你。
- 只有在线的旁边，稍微动一点点（比如把“流血”改成“出血”），保安的判断就会从“拒绝”变成“允许”，而画出来的图却几乎没变。
TCBS-Attack 就像一个在悬崖边走钢丝的杂技演员，它专门寻找那些刚好能骗过保安，但又能画出违规图的“微妙的平衡点”。

3. 为什么它这么强？

以前的黑客方法像是在蒙眼乱撞，或者只盯着一个保安看。而 TCBS-Attack 是同时盯着三个保安：

它知道文字保安的底线在哪里：它不断微调文字，直到文字保安说“行吧，这个可以进”，但还没到“太危险”的地步。
它知道图片保安的底线在哪里：它让 AI 先试着画，如果画出来的图被撕了（被拦截），它就立刻调整，往“安全线”的另一侧挪一点点，直到图片保安也放行。
它懂得“优胜劣汰”：它生成很多个版本，只保留那些既骗过了文字保安，又骗过了图片保安，而且画得还像的版本，继续让它们“生儿育女”（迭代优化），直到找到完美的“通关密码”。

4. 实验结果：它有多厉害？

论文里的实验就像是一场黑客大比武：

在开源模型上：TCBS-Attack 的成功率远超其他所有方法。比如，其他方法可能只能骗过 10% 的关卡，它能骗过 50% 以上。
在商业大模型上（如 DALL-E 3）：这可是最难攻克的“堡垒”，连 DALL-E 3 这种拥有顶级防御的模型，也被它成功绕过了大部分防线。
效率：它不需要像别人那样问几千次“能不能画这个”，它通过聪明的“边界搜索”，用更少的次数就找到了答案。

总结

简单来说，TCBS-Attack 就是一个极其精明的“钻空子”专家。

它不再试图用蛮力去撞开大门，而是通过进化算法，在“安全”和“危险”的模糊地带反复试探。它发现，只要把描述词改得稍微不那么敏感，但意思还保留着，就能让 AI 在不知不觉中画出原本禁止的画面。

这对我们意味着什么？
这篇论文虽然是在展示如何“攻击”AI，但它的真正目的是给 AI 开发者敲警钟：现在的防御系统还不够完美，黑客只要稍微动动脑筋，就能找到漏洞。只有知道了这些漏洞，开发者才能把“画廊”的保安训练得更聪明，让 AI 更安全。

一句话总结：TCBS-Attack 就像是一个在安全红线边缘“走钢丝”的高手，它利用 AI 防御系统的微小缝隙，成功让违规内容“溜”了出来，从而帮助人类发现并修补这些安全漏洞。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models》（面向文生图模型的令牌级约束边界搜索越狱攻击）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
近年来，文生图（Text-to-Image, T2I）模型（如 Stable Diffusion, DALL-E 3）发展迅速，但同时也带来了生成有害内容（NSFW，如色情、暴力等）的安全风险。为了应对这一风险，实际部署的 T2I 系统通常采用**全链路防御（Full-chain Defense）**机制，包括：

提示词检查器（Prompt Checker）： 在生成前过滤输入文本。
安全训练模型（Securely Trained Generator）： 模型内部通过安全微调抑制不安全概念。
后处理图像检查器（Post-hoc Image Checker）： 生成后对图像进行扫描，拦截违规输出。

核心挑战：
现有的越狱攻击大多针对单一模块，难以应对全链路防御。在黑盒设置下，攻击面临以下困难：

离散组合空间： 提示词由离散的 Token 组成，搜索空间巨大。
多重耦合约束： 攻击必须同时满足文本检查器和图像检查器的通过条件。
稀疏反馈与查询限制： 黑盒环境下缺乏梯度信息，且查询次数有限，传统方法容易陷入局部最优或收敛缓慢。
语义一致性： 攻击提示词需要在绕过检查的同时保持语义自然，不能过于生硬。

目标：
设计一种高效的黑盒越狱攻击方法，能够在有限的查询预算下，生成既能绕过全链路防御（文本 + 图像检查器），又能保持语义连贯的对抗性提示词。

2. 方法论 (Methodology)

作者提出了 TCBS-Attack（Token-level Constraint Boundary Search Attack），一种基于查询的黑盒进化攻击方法。其核心思想是将安全检查器视为具有决策边界的分类器，并将搜索空间聚焦于这些决策边界附近的区域。

2.1 核心思想：约束边界搜索

观察： 安全检查器（文本和图像）在嵌入空间中定义了“安全”与“不安全”的决策边界。靠近边界的提示词对微小的 Token 扰动最敏感，微小的语义保持修改即可翻转安全判定。
策略： 不盲目搜索整个离散空间，而是利用决策边界信息作为结构引导，将进化搜索集中在边界附近的候选解上，从而大幅降低有效搜索空间并提高查询效率。

2.2 算法流程

TCBS-Attack 采用进化算法框架，包含以下关键步骤：

初始化 (Initialization)：
- 检测目标提示词中的敏感 Token（通过预定义列表和分类器）。
- 基于 CLIP 文本相似度，用语义相似的 Token 替换敏感 Token 和非敏感 Token，生成初始种群（Population）。
基于约束边界的令牌搜索 (Token Search Based on Constraint Boundary)：
- 粗搜索 (Coarse Search)： 对种群中的候选提示词进行 Token 替换，生成子代（Offspring I）。
- 额外搜索 (Extra Search)： 针对那些接近边界但尚未通过的候选者进行二次精细搜索（Offspring II）。
  - 图像边界触发： 如果生成的图像 NSFW 分数（Score）接近 0 但大于 0，且图像相似度较高，则触发图像域搜索。
  - 文本边界触发： 如果提示词被文本检查器拒绝（Ftext=0），但仅经过少量编辑，则触发文本域搜索。
- 这种机制确保了对那些“差一点就通过”的样本进行重点优化。
基于约束的令牌选择 (Token Selection Based on Constraints)：
- 从父代和子代（共 2n 个候选）中选择 n 个进入下一代。
- 选择策略（优先级）：
  1. 优先选择能通过图像检查器（Score=0）的样本。
  2. 若都能通过，优先选择能通过文本检查器的样本。
  3. 若都通过，选择图像与目标内容相似度（CLIP Similarity）最高的。
  4. 若都失败，选择 NSFW 分数最低（最接近边界）的样本。

3. 主要贡献 (Key Contributions)

提出 TCBS-Attack 框架： 首次将决策边界概念引入文生图模型的黑盒越狱攻击，提出了一种基于约束边界的启发式 Token 搜索方法。
优化搜索效率与鲁棒性： 通过聚焦于约束边界附近的高潜力区域，有效缩小了搜索空间，显著提高了在多重耦合约束下的查询效率和攻击成功率。
设计高效的算子： 设计了包含显式约束处理的 Token 级搜索和选择算子，能够在保持语义连贯性的同时，有效绕过全链路防御。
广泛的实验验证： 在多种开源模型（SDv1.4, SLD, SafeGen）和商业在线服务（DALL-E 3）上进行了全面评估，证明了其优越性。

4. 实验结果 (Results)

实验在多个基准数据集（MMA-Diffusion, UnsafeDiff, VBCDE）和多种防御设置下进行。

全链路防御下的表现 (SDv1.4)：
- 在同时面对文本检查器（NSFW-text-classifier 或 Detoxify）和图像检查器时，TCBS-Attack 表现最佳。
- ASR-4 (攻击成功率，生成 4 张图至少 1 张成功)： 在 Detoxify + 图像检查器设置下达到 52.5%，远超基线方法（如 HTS-Attack 的 29.0%，DREAM 的 29.5%）。
- ASR-1： 达到 22.0%。
- Bypass-Img (绕过图像检查器)： 达到 82.0%。
安全训练模型的迁移攻击 (SafeGen & SLD)：
- 在针对经过安全微调的模型（SafeGen, SLD）时，TCBS-Attack 依然保持最高攻击成功率，证明了其强大的跨模型迁移能力。例如在 SLD 模型上，ASR-4 达到 17.0%。
商业在线服务 (DALL-E 3)：
- 在 DALL-E 3 这种具有复杂多层防御的商业服务上，TCBS-Attack 取得了 73.33% (ASR-4) 和 56.67% (ASR-1) 的成功率，显著优于其他 SOTA 方法。
消融实验与参数分析：
- 消融实验表明，同时使用文本和图像约束对于攻击成功至关重要。移除任一约束都会导致性能显著下降。
- 参数敏感性分析确定了最优的松弛边界参数（ $m_1=0.05, m_2=0.01$ ）和相似 Token 数量（ $k=20$ ）。

5. 意义与影响 (Significance)

揭示全链路防御的脆弱性： 该研究证明了即使结合了提示词过滤、安全模型训练和后处理图像检查的“全链路”防御体系，在面对针对决策边界的优化攻击时仍存在显著漏洞。
提升安全评估标准： 现有的安全评估往往只关注单一模块，TCBS-Attack 提供了一种更贴近真实部署场景的评估基准，有助于更全面地衡量 T2I 模型的安全性。
指导防御策略改进： 研究指出，防御系统需要关注决策边界附近的扰动，而不仅仅是关键词匹配。这为设计更鲁棒的防御机制（如边界感知防御、增强模型对微小扰动的鲁棒性）提供了方向。
伦理声明： 作者强调，该研究旨在识别漏洞以加强防御，而非促进恶意使用，呼吁社区负责任地应用这些发现。

总结：
TCBS-Attack 通过进化算法巧妙地利用安全检查器的决策边界信息，将复杂的黑盒约束优化问题转化为高效的边界搜索问题。它在保持提示词语义自然的同时，成功突破了目前最严格的 T2I 全链路防御，包括商业级服务，为文生图模型的安全研究设立了新的基准。

Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

1. 画廊的“三重安检” (全链条防御)

2. TCBS-Attack 的绝招：寻找“安全与危险的边缘”

3. 为什么它这么强？

4. 实验结果：它有多厉害？

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 核心思想：约束边界搜索

2.2 算法流程

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities