BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BlackMirror（黑镜） 的新工具，它的任务是给“文生图”AI 模型（比如 Midjourney、Stable Diffusion）做“体检”，专门用来发现那些看不见的后门攻击。

为了让你轻松理解，我们可以把整个过程想象成**“侦探抓内鬼”**的故事。

1. 背景：AI 画家被“下毒”了

想象你开了一家AI 画店，顾客只要说“画一只狗”，AI 就会画出一只可爱的狗。
但是，黑客（攻击者）在训练这个 AI 时偷偷下了“毒”（后门）。

正常情况：AI 画狗。
中毒情况：只要顾客的话里藏着一个看不见的“暗号”（比如一个特殊的空格符，或者一个不起眼的词），AI 就会立刻变脸，把“狗”画成“猫”，或者在画面里强行贴上一张“黑客贴纸”，甚至把整个画风变成“黑白素描”。

最可怕的是，这种“毒”是黑盒的。作为店主，你只能看到顾客说的话和 AI 画出来的图，根本看不到 AI 内部的代码或大脑结构。

2. 旧方法的失败：只看“长得像不像”

以前的侦探（检测工具，比如 UFID）是这样抓内鬼的：

逻辑：如果 AI 被下了毒，它每次听到暗号，画出来的东西应该一模一样（比如每次都画同一只猫）。
做法：侦探会拿两张图对比，如果它们长得非常像，就判定“有鬼”。
漏洞：现在的黑客很狡猾。他们不再让 AI 每次都画完全一样的图，而是让 AI 在画“狗”的时候，只偷偷把狗换成猫，但背景、光影、姿势都保持千变万化。
- 结果：两张图整体看起来差别很大（不像），旧侦探就以为“这是正常的随机变化”，从而漏掉了内鬼。

3. BlackMirror 的绝招：不仅看图，还要“对词”

BlackMirror 的侦探换了一种思路。它不关心整张图长得像不像，它关心的是：AI 画的图，到底有没有听懂顾客的话？

它由两个核心组件组成，我们可以叫它们**“照镜子”和“测稳定”**。

第一步：MirrorMatch（照镜子）—— 找茬

比喻：就像你点了一份“红烧肉”，端上来一看，盘子里有“红烧肉”，但旁边还莫名其妙多了一盘“臭豆腐”，或者少了一盘“红烧肉”。
做法：
1. 侦探先读顾客的指令（比如：“画一只狗”）。
2. 再让另一个 AI（视觉语言模型）仔细看图，列出图里有什么（比如：“猫、伞、树”）。
3. 对比：
  - 指令里有“狗”，图里没狗 $\rightarrow$ 丢了（Lost）。
  - 指令里没“猫”，图里却有猫 $\rightarrow$ 多了（New）。
- 这就是**“指令与回复的偏差”**。只要发现这种“多出来的”或“少掉的”东西，就标记为可疑。

第二步：MirrorVerify（测稳定）—— 验明正身

问题：有时候 AI 画错了，可能只是它自己“脑子抽了”（随机误差），而不是被黑客控制了。怎么区分是“抽风”还是“中毒”？
比喻：
- 抽风：你让 AI 画“狗”，它偶尔画了只“猫”，但你换个说法（比如“画一只可爱的狗”），它又画回“狗”了。这说明它只是偶尔犯错。
- 中毒：无论你怎么改指令（只要保留那个“暗号”），它死死地把“狗”画成“猫”。这种顽固的偏差，就是内鬼的铁证。
做法：
1. 侦探把指令里那些没问题的部分（比如“在草地上”、“红色的”）遮住，只保留核心指令。
2. 让 AI 重新画 5 次、10 次。
3. 观察：如果那个“多出来的猫”或“少掉的狗”在每一次重画中都稳稳地出现，那就能 100% 确定：这是后门攻击！

4. 为什么 BlackMirror 很厉害？

不用拆机器（黑盒）：它不需要知道 AI 内部怎么工作的，只需要像普通用户一样“提问”和“看图”。
专治各种花招：不管是把狗换成猫（对象攻击）、强行贴个贴纸（补丁攻击），还是强行改变画风（风格攻击），它都能通过“找茬”和“测稳定”抓出来。
不瞎猜：通过多次测试，它能把 AI 偶尔的“画错”和黑客的“故意作恶”区分开，大大减少了误报。

总结

BlackMirror 就像是一个拥有“读心术”和“测谎仪”的 AI 质检员。
以前的质检员只看产品外观是否统一（容易漏掉高明的造假）；
而 BlackMirror 会拿着订单（指令）和产品（图片）逐字逐句核对，并且反复测试，只要发现“无论怎么变，那个不该出现的东西总赖着不走”，它就立刻报警：“这里有后门！”

这项技术对于保护我们使用的 AI 服务（比如云端的画图模型）不被黑客暗中操控，起到了至关重要的“防火墙”作用。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
文本到图像（Text-to-Image, T2I）生成模型（如 Stable Diffusion）在近年来取得了巨大进展，但在实际部署中（特别是模型即服务 MaaS 场景），面临着严重的安全威胁，其中**后门攻击（Backdoor Attacks）**尤为关键。攻击者通过在训练数据中注入触发器，使得模型在遇到特定触发模式时，生成偏离用户指令的恶意图像。

核心挑战：
现有的后门检测方法大多依赖白盒设置（需要访问模型内部权重或注意力图），或者在黑盒设置下依赖图像级相似度（Image-level Similarity）。

现有黑盒方法的局限性： 以 UFID 为代表的现有方法假设：一旦触发后门，生成的图像在提示词扰动下会保持高度相似。然而，最新的后门攻击（如 BadT2I, EvilEdit, PaaS 等）往往只操纵图像的局部语义模式（如替换特定物体、添加特定风格或补丁），而保留图像其余部分的多样性。
结果： 这类攻击生成的图像在视觉嵌入空间中与良性样本高度重叠，导致基于全局相似度的检测方法失效（假阴性高）。

目标：
在黑盒设置下（仅能访问输入指令和输出图像，无法获取模型内部信息），设计一个通用、无需训练的检测框架，能够识别各种类型的 T2I 后门攻击（包括物体替换、补丁插入、风格篡改等）。

2. 方法论 (Methodology)

作者提出了 BlackMirror 框架，其核心洞察是：后门攻击会导致指令（Instruction）与响应（Response）之间的语义偏差，且这种由触发器引起的偏差具有跨提示词的稳定性（Cross-prompt Stability）。

BlackMirror 包含两个核心组件：

2.1 MirrorMatch：细粒度指令 - 响应偏差检测

该模块旨在识别生成图像中是否存在与输入指令不符的视觉模式。

指令解析： 使用大语言模型（LLM）从输入提示词中提取预期的视觉对象集合（ $O_{ins}$ ）。
图像解析： 使用视觉语言模型（VLM）对生成的图像进行多次描述，并通过**多数投票机制（Majority Voting）**提取图像中实际存在的对象集合（ $O_{res}$ ），以过滤背景噪声。
偏差定义： 对比两个集合：
- $O_{new}$ ：图像中存在但指令中未提及的对象（新增偏差）。
- $O_{lost}$ ：指令中提及但图像中缺失的对象（丢失偏差）。
- $O_{safe}$ ：两者共有的对象。
扩展性： 该过程并行处理三种攻击类型：物体级（Object）、补丁级（Patch）和风格级（Style）。

2.2 MirrorVerify：偏差稳定性验证

由于模型本身的生成偏差（Bias）也可能导致 $O_{new}$ 或 $O_{lost}$ 的出现，直接检测会导致高误报率。该模块用于区分“良性偏差”和“后门偏差”。

核心假设： 后门触发器一旦存在，其引起的操纵行为在提示词变化下是稳定的；而模型固有的随机偏差通常是不稳定的。
模式掩码（Pattern Masking）： 从原始指令中移除 $O_{safe}$ （安全对象），生成一系列变体提示词。这些变体保留了潜在的触发器，但改变了语义上下文。
稳定性评分： 基于变体提示词生成多张图像，再次使用 VLM 查询特定偏差对象（如“图像中是否有猫？”）是否存在。
- 计算偏差对象在 $N$ 次生成中的平均出现概率（对于 $O_{new}$ ）或消失概率（对于 $O_{lost}$ ）。
- 如果偏差在多次生成中持续稳定出现，则判定为后门行为。
决策： 如果最大稳定性分数超过阈值 $\tau$ ，则判定为后门攻击。

3. 主要贡献 (Key Contributions)

首个通用的黑盒 T2I 后门检测框架： BlackMirror 是早期尝试解决通用黑盒 T2I 后门检测的工作，能够处理物体、补丁和风格层面的操纵，无需访问模型内部参数。
创新的检测组件设计：
- MirrorMatch： 利用 VLM 和 LLM 进行细粒度的指令 - 响应对齐，捕捉全局相似度无法发现的局部语义偏差。
- MirrorVerify： 引入“跨提示词稳定性”作为判别依据，通过模式掩码和多次生成验证，有效区分后门操纵与模型自然偏差，大幅降低误报率。
无需训练且即插即用： 框架完全基于预训练的 VLM 和 LLM，无需微调，可直接部署在 MaaS 平台。
广泛的实验验证： 在多种主流攻击（ObjRepAtt, PatchAtt, StyleAtt, FixImgAtt）上进行了全面评估，证明了其优越的泛化能力。

4. 实验结果 (Results)

实验在 Stable Diffusion v1.5 上进行了广泛测试，对比了现有的黑盒方法（UFID, CLIP 基线）和白盒方法（T2IShield, GrainPS 等）。

整体性能：
- BlackMirror 在F1 分数上显著优于现有黑盒方法。例如，在 BadT2I 攻击上，F1 从 UFID 的 66.67% 提升至 86.96%；在 EvilEdit 上从 60.87% 提升至 85.71%。
- 在**误报率（FPR）**方面表现优异，平均 FPR 仅为 15.09%，远低于 UFID (48.78%) 和 CLIP 基线 (42.50%)。
针对不同攻击类型的表现：
- 物体替换 (ObjRepAtt)： 表现最佳，能有效识别被替换的物体（如狗变猫）。
- 补丁与风格攻击 (Patch/StyleAtt)： 在 UFID 失效的复杂场景下（如 BadT2I 的补丁攻击、RickTAA 的风格攻击），BlackMirror 依然保持高 F1 分数（PatchAtt: 90.57%, StyleAtt: 88.31%）。
- 固定图像攻击 (FixImgAtt)： 虽然 UFID 在此类攻击上表现略好（因为图像完全一致），但 BlackMirror 依然保持了竞争力（Recall 100%），且避免了过拟合。
消融实验：
- 投票机制： 显著降低了 FPR（平均降低约 5%）并减少了 VLM 查询次数，提高了效率。
- 验证模块 (MirrorVerify)： 若移除该模块，FPR 飙升至 93.06%，证明了稳定性验证对于区分良性偏差的必要性。
- 生成次数 (N)： 增加生成次数 $N$ 能进一步降低 FPR， $N=5$ 是精度与效率的最佳平衡点。
效率： 尽管需要多次生成和 VLM 查询，BlackMirror 的推理时间仅比 UFID 增加约 6.34%，在可接受范围内。

5. 意义与价值 (Significance)

填补黑盒检测空白： 解决了当前 T2I 模型在 MaaS 场景下缺乏有效黑盒检测手段的痛点，特别是针对日益隐蔽的局部语义攻击。
可解释性强： 与基于相似度的“黑盒”判断不同，BlackMirror 能明确指出哪里出现了偏差（例如：指令说“狗”，图像里出现了“猫”），提供了可解释的检测结果。
通用性与鲁棒性： 框架不依赖于特定的攻击类型或模型架构，能够适应未来可能出现的新型后门攻击。
实际部署潜力： 作为无需训练、即插即用的模块，BlackMirror 非常适合集成到现有的 AI 服务平台中，作为安全网关实时监测生成内容的安全性。

总结： BlackMirror 通过从“全局相似度”转向“细粒度语义偏差 + 稳定性验证”的范式，成功克服了现有黑盒检测方法的局限性，为文本到图像模型的安全防御提供了强有力的解决方案。