原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
想象一下,你有一位非常聪明、备受信赖且从不说谎的图书管理员。你完全信任他们,让他们告诉你书里有什么、画作描绘了什么,或者某个产品是否优质。你假设,如果你递给他们一张猫的照片,他们会告诉你:“那是一只猫。”
这篇论文揭示了一个令人恐惧的诡计:你可以诱骗这位图书管理员看到一种完全不同的动物,尽管在你看来,照片看起来完全一样。
研究人员将这种现象称为"AI 权威洗白”(AI Authority Laundering)。其运作原理可分解为以下简单概念:
核心诡计:“魔法滤镜”
可以将 AI 模型想象成拥有两副不同的眼镜:
- 你的眼镜:当你观看图像时,你看到的是正常的图片(例如,一瓶泰诺)。
- AI 的眼镜:AI 看到的是该图片的隐藏且经过轻微篡改的版本(例如,一瓶危险的祛痘药物)。
研究人员发现了一种方法,可以在图像中添加不可见的“噪声”——就像微小的、不可见的静电杂讯——这会改变 AI 看到的内容,但让人眼看来图像依然完全正常。
为什么这很危险?(“洗白”部分)
通常,当我们担心 AI 时,会想到人们试图“越狱”它——强迫它打破规则或说出恶毒的话。但这篇论文展示了不同的情况。
AI 并没有被强迫去打破规则。它被诱骗去完美地遵守其规则,只是针对错误的对象。
- 场景:你问 AI:“这种药对孕妇安全吗?”
- 诡计:你给它看一张泰诺(安全)的照片,但 AI 的“眼镜”让它看到了罗阿曲坦(危险)。
- 结果:AI 真诚且礼貌地回答:“不,这很危险!”因为它认为自己看到的是危险药物。
- 洗白:AI 以“诚实且安全”著称的声誉被用来洗白一个谎言。用户信任 AI 的权威性,因此相信了虚假的警告,尽管 AI 只是在针对一个被篡改的虚假现实履行职责。
研究人员实际上做了什么?
他们在当今最先进的 AI 系统(如 GPT-5.4、Claude、Gemini 和 Grok)上测试了这一点。他们无需发明新的、超级复杂的黑客工具;他们使用的是十多年来已知的技术。
以下是他们破坏信任的四种主要方式:
散布假新闻(阴谋论者):
- 他们选取了一张著名的登月或 9/11 袭击事件的照片。
- 他们添加了不可见的“噪声”。
- AI 观看后自信地宣称:“这是假新闻”或“该事件从未发生”,从而有效地为阴谋论背书。
抹黑他人姓名(身份窃贼):
- 他们选取了一张名人的照片(例如埃隆·马斯克)。
- 他们让 AI 看到另一个人(例如一名罪犯或一名超重者)。
- 当被要求识别该人时,AI 自信地说:“那是 [错误的人]",从而损害了真实人物的声誉。
绕过安全过滤器(“免罪金牌”):
- 平台通常会阻止 AI 生成或讨论不当内容(如裸露或暴力)。
- 研究人员选取了一张“被禁止”的图片,并让 AI 将其视为无害的玩具(例如泰迪熊)。
- AI 以为自己在看泰迪熊,便愉快地同意处理该图像或生成其卡通版本,从而有效地绕过了安全护栏。
欺骗购物者(虚假评论):
- 他们向 AI 展示了一张廉价、低质量手表的照片。
- 他们让 AI 看到一张昂贵劳力士手表的照片。
- 当被征求建议时,AI 推荐购买那块廉价手表,因为它以为那是奢侈品牌。
主要结论
可怕之处不在于 AI“坏了”或“邪恶”。可怕之处在于AI 完全按照设计在运行。它正在诚实、乐于助人且安全地工作,但它所看到的现实是被攻击者秘密篡改过的。
由于 AI 如此值得信赖,它的“诚实”错误便成为一种强大的武器。论文得出结论,只要无法修复 AI 在图像感知方面的这一“盲点”,我们就应对任何声称能验证图像或事实核查世界的 AI 保持高度怀疑。
简而言之:AI 就像法庭上一位非常诚实的证人。研究人员并没有贿赂证人;他们只是将证人眼前的证据照片进行了调换。证人依然陈述事实,但事实现在关于的却是错误的图片。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。