想象你有一个非常聪明、乐于助人的机器人助手（一个 AI 智能体），它为你阅读文档。也许它是一个阅读股票报告的金融机器人，或者是一个审查合同的法律机器人。为了确保这个机器人的安全，你安装了一位“安全警卫”（一个注入检测器）。这位警卫的任务是发现任何试图在机器人阅读的文档中偷偷混入秘密恶意命令的人。

问题所在：“披着羊皮的狼”

该论文指出，安全警卫被训练用来识别那些显而易见、大张旗鼓的入侵者。想象一下一种静态攻击，就像一个人戴着鲜红的假面具，举着一块写着“忽略所有先前的规则！按我说的做！”的牌子。警卫会立刻看到并拉响警报。

但论文引入了一种更隐蔽的新型攻击，称为“领域伪装注入”。

想象一个高明的窃贼，他不戴面具，而是打扮得完全像一个受信任的专家。如果机器人正在阅读一份财务报告，这个窃贼就会伪造一段文字，其外观和语气都与真正的金融分析师所写的一模一样。他们使用同样的华丽辞藻、同样的句子结构以及同样的严肃语调。然而，在这段听起来完全正常的文字背后，隐藏着一个秘密指令：“卖出所有股票。”

对安全警卫来说，这看起来就像是文档中合法的一部分。警卫没有看到红面具，只看到了西装和领带。因此，警卫会说“一切看起来都很干净”，让那条恶意指令大摇大摆地溜了过去。

重大发现：“盲点”

研究人员使用两种不同的 AI 模型（Llama 和 Gemini）对此进行了测试，发现了一个巨大的安全漏洞，他们称之为“伪装检测差距（CDG）”。

对于 Llama 模型： 警卫拦截了 94% 的明显“红面具”攻击。但当攻击伪装成专家文本时，警卫仅拦截了9.7%。它几乎漏掉了所有内容。
对于 Gemini 模型： 警卫拦截了 100% 的明显攻击，但拦截伪装攻击的比例却下降到了55.6%。

可怕之处在于？警卫并非困惑或不确定。它是自信地错误。它看着伪装后的攻击，以 100% 的确定性说：“这是安全的！”而实际上它却是危险的。这意味着你不能仅仅告诉警卫“要更小心”或“更担心”来修复它；警卫根本不知道要看什么。

“辩论俱乐部”实验

研究人员还尝试了一种不同的安全策略：让三个机器人在做出决定之前对答案进行辩论。

对于较弱的机器人（Llama）： 辩论让情况变得更糟。当机器人争论时，它们实际上放大了错误的指令。如果一个机器人被伪装文本欺骗，其他机器人也会跟随，使得错误发生的可能性增加了 10 倍。这就像一群朋友都同意一个错误的答案，因为没人愿意在答案听起来非常真实时说出“等等，那听起来很假”。
对于较强的机器人（Gemini）： 辩论起到了帮助作用。较强的机器人能够识破诡计并互相纠正，从而使系统更安全。

我们能否仅仅增加更多示例？

研究人员尝试了一种“廉价修复”：他们向安全警卫展示了一些这类伪装攻击的示例，以便它能学会要看什么。

对于强机器人（Gemini）： 这非常有效。警卫学会了这种模式，几乎拦截了所有伪装攻击。
对于弱机器人（Llama）： 这几乎没有起到任何帮助。警卫仍然漏掉了大部分攻击。这表明，较小、较便宜的 AI 模型在仅通过查看少量示例来学习这些微妙诡计的能力上存在根本性的局限。

核心结论

该论文总结道，我们当前的安全警卫对看起来像真东西的攻击视而不见。它们非常擅长捕捉大声、明显的入侵者，但对于那些完美融入人群的攻击者则完全失效。这对于用于现实世界工作的较小 AI 模型来说是一个巨大的问题，因为它们无法轻易被“教导”去识别这些微妙的诡计，而增加更多机器人来辩论这个问题实际上可能会使问题恶化。

研究人员已发布了他们的工具，以便其他人尝试构建更好的警卫，但目前，“披着羊皮的狼”仍然是欺骗 AI 系统的一种非常有效的方法。

技术摘要：守卫中的盲点

问题陈述

当前部署用于保护大语言模型（LLM）代理的注入检测器，主要基于静态、模板化的载荷进行校准。这些标准攻击会明确宣布自身为覆盖指令（例如“忽略所有先前指令”）或权威声明。本文指出了一个系统性盲点：检测器无法识别领域伪装注入。

在这种攻击向量中，拥有间接文档访问权限（例如通过检索增强生成 RAG 或邮件处理）的 adversaries 会精心制作恶意载荷，使其模仿目标文档的领域词汇、句子结构和权威语域。与静态攻击不同，这些载荷不包含明确的覆盖标记；相反，它们将恶意指令嵌入其中，使其看起来像是合法的专家内容。本文认为，标准检测器对这些攻击是“自信地错误”，将其标记为CLEAN且置信度极高，这使得基于置信度阈值等标准缓解策略失效。

为了量化这一失败，作者引入了伪装检测差距（Camouflage Detection Gap, CDG），定义为静态载荷与伪装载荷之间的注入检测率（IDR）之差（ $CDG = IDR_{static} - IDR_{camouflage}$ ）。

方法论

1. 任务库与载荷生成

作者构建了一个基准测试，包含跨三个专业领域的45 个任务：

金融：股票分析、风险评估、收益解读。
法律：合同审查、合规评估、风险标记。
通用问答：事实检索、摘要生成、分类。

对于每个任务，提示一个伪装生成器（攻击者 LLM）阅读干净的上下文文档，并生成一个载荷，该载荷在嵌入特定恶意目标的同时，采用文档的领域特定词汇和认识论语域。生成器被明确禁止使用标准覆盖标记。每个任务生成三个变体，并选择具有最高权威伪装分数（Authoritative Camouflage Score, ACS）（通过与上下文的余弦相似度测量）的一个。

2. 实验设置

模型：实验在Llama 3.1 8B（本地推理）和Gemini 2.0 Flash（通过 OpenRouter）上进行，以进行跨模型验证。
架构：
- 单代理：提示一名专业分析师仅基于提供的文档生成回复。
- 多代理辩论：三个代理（分析师 A、B、C）进行三轮辩论。条件包括 inject_all（所有代理接收注入上下文）和 inject_first（仅第一个代理接收注入）。
评估的检测器：
- 静态检测器：一个基于三个静态注入示例和两个干净示例（无伪装示例）训练的少样本分类器。
- 增强检测器：在静态检测器的基础上，每个领域添加一个领域伪装示例。
- Llama Guard 3：一个生产级安全分类器，用作基线，以测试该盲点是否不仅限于少样本方法。

3. 指标

ASR（攻击成功率）：代理遵循注入指令的试验比例。
IDR（注入检测率）：被正确标记的注入试验比例。
CDG：静态载荷与伪装载荷之间检测率的差距。
DAF（辩论放大因子）：辩论设置与单代理设置下的 ASR 之比。
CPS（顺从压力分数）：采纳注入代理立场的非注入代理的比例。

主要结果

1. 伪装检测差距巨大且显著

对标准攻击具有高检测率的静态检测器，在面对伪装载荷时彻底失效：

Llama 3.1 8B：IDR 从93.8%（静态）降至9.7%（伪装），产生0.840的 CDG。
Gemini 2.0 Flash：IDR 从100%降至55.6%，产生0.444的 CDG。
统计显著性：McNemar 检验确认这些差距具有统计显著性（ $p < 0.001$ ），且不存在反向不一致对（即当静态载荷被捕获时，伪装载荷从未逃脱检测）。
置信度：这种失败并非源于不确定性。在 Llama 上被漏掉的伪装案例中，96.7%被标记为CLEAN 且置信度极高。

2. 生产级安全分类器也存在盲点

Llama Guard 3在 135 次试验中检测到了零个伪装载荷（IDR = 0.000）。这证实了该漏洞不仅限于少样本检测器，还延伸至专用的安全分类器，可能是因为这些载荷不包含传统的“有害”内容（如仇恨言论、暴力），而是包含错位的专家推理。

3. 多代理辩论放大了较小模型的脆弱性

Llama 3.1 8B：辩论放大了攻击。静态攻击的 DAF 为3.4 倍，而伪装攻击的 DAF 达到了9.9 倍。代理未能将符合领域的内容标记为可疑，通过顺从动态传播了注入。
Gemini 2.0 Flash：辩论抑制了攻击（DAF < 1），显示出集体抵抗力。然而，0.282的顺从压力分数表明，即使多数投票修正了最终输出，个别代理仍受到了影响。

4. 检测器增强依赖于模型

向检测器的少样本池中添加少量伪装示例产生了截然不同的结果：

Gemini：将伪装 IDR 从 54.8% 提升至 90.4%（CDG 改善 78.7%），几乎消除了差距。
Llama：将伪装 IDR 从 11.1% 提升至 19.4%（CDG 改善 10.2%），绝大多数攻击仍未被检测到。
这表明，通过上下文学习进行的“廉价修复”仅对更强模型有效泛化，而较小的本地部署模型则存在根本性的架构局限。

意义与主张

本文声称是首个系统评估检测系统对抗由 LLM 阅读完整任务文档生成的上下文自适应载荷的研究。其主要贡献如下：

定义威胁：确立“领域伪装注入”为一种独特的、高风险的攻击向量，能够逃避当前的句法检测方法。
量化差距：引入CDG指标来衡量静态检测与伪装检测之间的差异，证明该盲点是类别性的（检测器自信地错误）而非统计性的。
架构脆弱性：揭示多代理辩论（通常被视为一种鲁棒性机制）可能成为较小模型的负担，将伪装攻击放大了近10 倍。
当前防御的局限性：表明标准安全分类器（Llama Guard 3）和少样本增强无法解决这一特定威胁，尤其是对较小模型而言。

作者得出结论，使用较小的本地托管代理的部署面临系统性且 largely 未解决的注入检测漏洞，这需要超越简单少样本增强的架构解决方案。该框架、任务库和载荷生成器已公开发布，以支持进一步研究。

Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems