Laundering AI Authority with Adversarial Examples

本文表明,作为可信权威部署的视觉 - 语言模型易受"AI 权威洗白”攻击,即简单的、已有十年历史的对抗性扰动可诱骗 GPT-5.4 和 Claude Opus 4.6 等生产系统自信地生成关于被操纵图像的错误但看似权威的回应,从而在不破坏模型对齐的前提下实现虚假信息的放大、内容审核的规避以及产品推荐的操纵。

原作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你有一位非常聪明、备受信赖且从不说谎的图书管理员。你完全信任他们,让他们告诉你书里有什么、画作描绘了什么,或者某个产品是否优质。你假设,如果你递给他们一张猫的照片,他们会告诉你:“那是一只猫。”

这篇论文揭示了一个令人恐惧的诡计:你可以诱骗这位图书管理员看到一种完全不同的动物,尽管在你看来,照片看起来完全一样。

研究人员将这种现象称为"AI 权威洗白”(AI Authority Laundering)。其运作原理可分解为以下简单概念:

核心诡计:“魔法滤镜”

可以将 AI 模型想象成拥有两副不同的眼镜:

  1. 你的眼镜:当你观看图像时,你看到的是正常的图片(例如,一瓶泰诺)。
  2. AI 的眼镜:AI 看到的是该图片的隐藏且经过轻微篡改的版本(例如,一瓶危险的祛痘药物)。

研究人员发现了一种方法,可以在图像中添加不可见的“噪声”——就像微小的、不可见的静电杂讯——这会改变 AI 看到的内容,但让人眼看来图像依然完全正常。

为什么这很危险?(“洗白”部分)

通常,当我们担心 AI 时,会想到人们试图“越狱”它——强迫它打破规则或说出恶毒的话。但这篇论文展示了不同的情况。

AI 并没有被强迫去打破规则。它被诱骗去完美地遵守其规则,只是针对错误的对象。

  • 场景:你问 AI:“这种药对孕妇安全吗?”
  • 诡计:你给它看一张泰诺(安全)的照片,但 AI 的“眼镜”让它看到了罗阿曲坦(危险)。
  • 结果:AI 真诚且礼貌地回答:“不,这很危险!”因为它认为自己看到的是危险药物。
  • 洗白:AI 以“诚实且安全”著称的声誉被用来洗白一个谎言。用户信任 AI 的权威性,因此相信了虚假的警告,尽管 AI 只是在针对一个被篡改的虚假现实履行职责。

研究人员实际上做了什么?

他们在当今最先进的 AI 系统(如 GPT-5.4、Claude、Gemini 和 Grok)上测试了这一点。他们无需发明新的、超级复杂的黑客工具;他们使用的是十多年来已知的技术。

以下是他们破坏信任的四种主要方式:

  1. 散布假新闻(阴谋论者)

    • 他们选取了一张著名的登月或 9/11 袭击事件的照片。
    • 他们添加了不可见的“噪声”。
    • AI 观看后自信地宣称:“这是假新闻”或“该事件从未发生”,从而有效地为阴谋论背书。
  2. 抹黑他人姓名(身份窃贼)

    • 他们选取了一张名人的照片(例如埃隆·马斯克)。
    • 他们让 AI 看到另一个人(例如一名罪犯或一名超重者)。
    • 当被要求识别该人时,AI 自信地说:“那是 [错误的人]",从而损害了真实人物的声誉。
  3. 绕过安全过滤器(“免罪金牌”)

    • 平台通常会阻止 AI 生成或讨论不当内容(如裸露或暴力)。
    • 研究人员选取了一张“被禁止”的图片,并让 AI 将其视为无害的玩具(例如泰迪熊)。
    • AI 以为自己在看泰迪熊,便愉快地同意处理该图像或生成其卡通版本,从而有效地绕过了安全护栏。
  4. 欺骗购物者(虚假评论)

    • 他们向 AI 展示了一张廉价、低质量手表的照片。
    • 他们让 AI 看到一张昂贵劳力士手表的照片。
    • 当被征求建议时,AI 推荐购买那块廉价手表,因为它以为那是奢侈品牌。

主要结论

可怕之处不在于 AI“坏了”或“邪恶”。可怕之处在于AI 完全按照设计在运行。它正在诚实、乐于助人且安全地工作,但它所看到的现实是被攻击者秘密篡改过的。

由于 AI 如此值得信赖,它的“诚实”错误便成为一种强大的武器。论文得出结论,只要无法修复 AI 在图像感知方面的这一“盲点”,我们就应对任何声称能验证图像或事实核查世界的 AI 保持高度怀疑。

简而言之:AI 就像法庭上一位非常诚实的证人。研究人员并没有贿赂证人;他们只是将证人眼前的证据照片进行了调换。证人依然陈述事实,但事实现在关于的却是错误的图片。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →