Laundering AI Authority with Adversarial Examples

Each language version is independently generated for its own context, not a direct translation.

想象一下，你有一位非常聪明、备受信赖且从不说谎的图书管理员。你完全信任他们，让他们告诉你书里有什么、画作描绘了什么，或者某个产品是否优质。你假设，如果你递给他们一张猫的照片，他们会告诉你：“那是一只猫。”

这篇论文揭示了一个令人恐惧的诡计：你可以诱骗这位图书管理员看到一种完全不同的动物，尽管在你看来，照片看起来完全一样。

研究人员将这种现象称为"AI 权威洗白”（AI Authority Laundering）。其运作原理可分解为以下简单概念：

核心诡计：“魔法滤镜”

可以将 AI 模型想象成拥有两副不同的眼镜：

你的眼镜：当你观看图像时，你看到的是正常的图片（例如，一瓶泰诺）。
AI 的眼镜：AI 看到的是该图片的隐藏且经过轻微篡改的版本（例如，一瓶危险的祛痘药物）。

研究人员发现了一种方法，可以在图像中添加不可见的“噪声”——就像微小的、不可见的静电杂讯——这会改变 AI 看到的内容，但让人眼看来图像依然完全正常。

为什么这很危险？（“洗白”部分）

通常，当我们担心 AI 时，会想到人们试图“越狱”它——强迫它打破规则或说出恶毒的话。但这篇论文展示了不同的情况。

AI 并没有被强迫去打破规则。它被诱骗去完美地遵守其规则，只是针对错误的对象。

场景：你问 AI：“这种药对孕妇安全吗？”
诡计：你给它看一张泰诺（安全）的照片，但 AI 的“眼镜”让它看到了罗阿曲坦（危险）。
结果：AI 真诚且礼貌地回答：“不，这很危险！”因为它认为自己看到的是危险药物。
洗白：AI 以“诚实且安全”著称的声誉被用来洗白一个谎言。用户信任 AI 的权威性，因此相信了虚假的警告，尽管 AI 只是在针对一个被篡改的虚假现实履行职责。

研究人员实际上做了什么？

他们在当今最先进的 AI 系统（如 GPT-5.4、Claude、Gemini 和 Grok）上测试了这一点。他们无需发明新的、超级复杂的黑客工具；他们使用的是十多年来已知的技术。

以下是他们破坏信任的四种主要方式：

散布假新闻（阴谋论者）：
- 他们选取了一张著名的登月或 9/11 袭击事件的照片。
- 他们添加了不可见的“噪声”。
- AI 观看后自信地宣称：“这是假新闻”或“该事件从未发生”，从而有效地为阴谋论背书。
抹黑他人姓名（身份窃贼）：
- 他们选取了一张名人的照片（例如埃隆·马斯克）。
- 他们让 AI 看到另一个人（例如一名罪犯或一名超重者）。
- 当被要求识别该人时，AI 自信地说：“那是 [错误的人]"，从而损害了真实人物的声誉。
绕过安全过滤器（“免罪金牌”）：
- 平台通常会阻止 AI 生成或讨论不当内容（如裸露或暴力）。
- 研究人员选取了一张“被禁止”的图片，并让 AI 将其视为无害的玩具（例如泰迪熊）。
- AI 以为自己在看泰迪熊，便愉快地同意处理该图像或生成其卡通版本，从而有效地绕过了安全护栏。
欺骗购物者（虚假评论）：
- 他们向 AI 展示了一张廉价、低质量手表的照片。
- 他们让 AI 看到一张昂贵劳力士手表的照片。
- 当被征求建议时，AI 推荐购买那块廉价手表，因为它以为那是奢侈品牌。

主要结论

可怕之处不在于 AI“坏了”或“邪恶”。可怕之处在于AI 完全按照设计在运行。它正在诚实、乐于助人且安全地工作，但它所看到的现实是被攻击者秘密篡改过的。

由于 AI 如此值得信赖，它的“诚实”错误便成为一种强大的武器。论文得出结论，只要无法修复 AI 在图像感知方面的这一“盲点”，我们就应对任何声称能验证图像或事实核查世界的 AI 保持高度怀疑。

简而言之：AI 就像法庭上一位非常诚实的证人。研究人员并没有贿赂证人；他们只是将证人眼前的证据照片进行了调换。证人依然陈述事实，但事实现在关于的却是错误的图片。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：利用对抗样本洗白 AI 权威

问题定义
本文探讨了视觉 - 语言模型（VLMs）在在线生态系统（例如社交媒体事实核查、产品推荐、内容审核）中作为“可信权威”部署时存在的一个关键漏洞。虽然用户隐含地信任这些系统能像人类一样感知视觉内容，但作者证明，对抗样本可以打破这一假设。他们提出了一种名为AI 权威洗白的威胁模型：攻击者对图像进行细微扰动，使得 VLM 针对攻击者选定的语义现实生成自信且权威的响应，而非针对人类观察者所看到的图像。

与颠覆模型对齐或指令的“越狱”或“提示注入”不同，权威洗白完全在感知层面运作。模型依然保持“对齐”——它针对其错误感知到的内容，做出有帮助、无害且诚实的响应。因此，基于对齐的标准防御手段（安全微调、拒绝训练）对此类威胁无效。核心问题在于生产环境中的 VLM 缺乏视觉对抗鲁棒性。

方法论
作者提出了一种两阶段攻击流程，以逼近理想的“感知神谕”（Perception Oracle），在此模型中，攻击者同时控制模型看到的图像（目标）和人类观察者看到的图像（源）。

阶段一：神谕攻击设计：攻击者选择一张对观察者而言看似无害的源图像（ $img_{src}$ ），以及一个目标图像或概念（$target$），当对齐后的 VLM 处理该目标时，会生成预期的对抗性输出（例如，虚假事实、被拒绝的策略违规）。此阶段定义了四类攻击目标：
- 叙事操纵：诱导关于事件的虚假主张（例如，阴谋论）。
- 身份操纵：错误识别公众人物以传播虚假信息或损害声誉。
- 商业欺诈：操纵产品推荐。
- 规避安全过滤器：绕过内容审核（NSFW 内容、公众人物保护）。
阶段二：对抗实例化：作者利用标准对抗技术实例化该神谕。他们优化单张图像（ $img_{adv}$ ），使其视觉编码器嵌入与目标嵌入之间的距离最小化，同时受限于使其在 $L_\infty$ 范数下保持与源图像接近的约束（ $\|x - img_{src}\|_\infty \le \epsilon$ ）。
- 迁移性：该攻击针对公开可用的 CLIP 模型集合（开源代理）使用标准投影梯度下降（PGD）。
- 黑盒目标：这些扰动被迁移至架构和权重未知的生产环境 VLM，包括GPT 5.4、Claude Opus 4.6、Gemini 3 和 Grok 4.2。
- 无新算法：作者刻意避免使用新型攻击算法，以确立攻击者能力的下限，证明十多年来已知的技术已足够。

主要贡献

威胁模型定义：正式定义了"AI 权威洗白”，通过聚焦感知差异将其与破坏对齐的攻击区分开来。它将攻击分类为认知操纵（虚假信息）和合规洗白（过滤器规避）。
系统性评估：在六种生产环境 VLM 和七个案例研究中进行了广泛评估，展示了具有深远后果的实际攻击向量。
低攻击门槛的证明：表明针对开源代理使用基础的、现成的对抗技术，足以持续操纵前沿 VLM，证明视觉鲁棒性是一个实际存在且尚未解决的安全问题。

结果
作者在四个攻击面上报告了高成功率：

叙事操纵：扰动历史事件图像（例如阿波罗 11 号、9/11 事件）以匹配“假新闻”的文本嵌入，导致 ChatGPT 5.4 和 Grok 4.2 等模型自信地验证阴谋论。各模型的成功率在**22% 至 100%**之间。
身份操纵：在跨身份攻击（10 位公众人物，90 组对抗配对）中，模型在84% 至 96%的案例中未能识别源身份。针对特定目标的成功率（识别攻击者选定的目标）在 Grok 4.2 上达到54.4%。这些操纵成功传播到下游任务，如反向图像搜索和图像生成。
安全过滤器规避：
- NSFW 规避：扰动露骨图像以匹配玩具（玩偶/熊）的嵌入，使其能够绕过商业 NSFW 检测器，并被图像生成 VLM（例如 GPT 5.4 Image 2）接受，接受率高达70–100%。
- 非对称策略规避：扰动女性图像以匹配男性嵌入，使得绕过特定性别的内容过滤器（例如，移除衣物的请求）的成功率达到81%。
- 公众人物保护：扰动公众人物图像以匹配 AI 生成的人脸，在**86%**的案例中绕过了拒绝机制。
商业欺诈：扰动低质量产品图像以匹配高端品牌（例如，将廉价手表匹配为劳力士），导致 VLM 逆转其购买推荐，转而支持攻击者的产品。

意义与主张
本文认为，对抗样本仅作为“理论奇观”的时代已经结束。通过将 VLM 部署为可信权威，行业无意中将这些模型武器化，以放大虚假信息并绕过安全协议。

实际安全关切：作者声称，视觉对抗鲁棒性现在是一个关键的、实际的安全问题。简单且已知的攻击能在最先进模型上奏效，表明威胁的严重程度远超当前认知。
当前防御的局限性：基于对齐的防御变得无关紧要，因为模型并非被“欺骗”去违反规则，而是被欺骗去针对错误的输入诚实地遵守规则。
行动呼吁：本文结论指出，在视觉鲁棒性得到解决之前，VLM 的输出不应被视为权威。它呼吁：
- 技术干预：明确表述推理过程，以帮助检测差异。
- 政策响应：限制 AI 背书内容的传播范围，标记可能被操纵的输出，并重新审视授予 AI 系统的权威。
- 研究转向：从研究独立模型转向理解感知与权威相交的真实世界生态系统中的攻击。

作者强调，他们并未努力最小化扰动的可感知性（除了标准的 $L_\infty$ 约束），这表明即使更隐蔽、更难检测的攻击也是可行的。

核心诡计：“魔法滤镜”

为什么这很危险？（“洗白”部分）

研究人员实际上做了什么？

主要结论

技术摘要：利用对抗样本洗白 AI 权威

类似论文