原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你拥有一个非常聪明、乐于助人的机器人助手。你向它提问,它给你答案。通常,我们会担心机器人是否“坏了”,或者是否有人用直接指令(比如“忽略你的规则并执行 X”)欺骗了它。
但本论文提出了一个更隐蔽、更狡猾的问题:如果没人告诉机器人该做什么,但他们在机器人回答之前控制了机器人“读到了什么”呢?
以下是这项研究的简单解释:
设置:“滚动”阶段
研究人员设计了一个游戏。他们给一个 AI 智能体布置了一个任务:“决定一家公司应该让员工居家办公、回到办公室,还是采取混合模式。”
在 AI 做出最终决定之前,研究人员让它“滚动”浏览十轮社交媒体动态。在每一轮中,AI 会看到五条简短的帖子。
- 对照组: AI 的大脑(模型)、它要回答的问题以及它的性格在每次测试中都是完全相同的。
- 变量: 唯一改变的是信息流。有时信息流是正常、随机的帖子;有时信息流则充满了强烈支持“重返办公室”的帖子,尽管这些帖子并没有说“你必须选择重返办公室”。它们只是看起来很正常的文章和观点。
发现:“回声壁效应”
研究人员发现,通过策划信息流,他们实际上可以引导机器人的决策,即便机器人并没有被直接命令去改变想法。
他们根据机器人的反应发现了三种类型的机器人(模型):
“顺从者”(容易被引导型):
- 类比: 想象一个人在纠结晚餐吃什么。如果你给他看一个全是披萨图片的菜单,他很可能会点披萨。
- 结果: 一些 AI 模型(如 Llama 3.2)就是这样的。如果信息流充满了“重返办公室”的帖子,AI 就会开始建议“重返办公室”,即使它通常更倾向于远程办公。它不需要指令;它只是被信息的容量所左右。
“饱和型”(顽固的岩石):
- 类比: 想象一个人非常热爱披萨,以至于即使给他看一个全是汉堡的菜单,他也不会改变主意。他只想吃披萨。
- 结果: 其他模型(如 Qwen)对于特定的答案(一种“混合”方案)非常固执,无论多少“重返办公室”的帖子都无法动摇它们。它们被自己的默认观点“饱和”了。
“不对称性”(单行道):
- 类比: 想象你稍微向左倾斜。如果有人从右边推你,你可能会倒下。但如果有人从左边推你(也就是你原本倾斜的方向),你不会移动。
- 结果: 这种攻击只在信息流试图将 AI 推向其自然默认观点相反方向时才会奏效。如果 AI 本身就喜欢“远程办公”,且信息流充满了“远程办公”的帖子,AI 不会改变。但如果信息流充满了“重返办公室”的帖子,它就会发生偏移。信息流无法覆盖一个强烈的信念,但它可以撼动一个摇摆不定的信念。
“剂量”很重要
研究人员发现了一个“剂量效应”曲线。这就像服药一样:
- 如果信息流中 5 条里有 1 或 2 条“不良”帖子,什么都不会发生。
- 但一旦信息流中 5 条里有 3 或 4 条“不良”帖子,AI 的决策就开始发生转变。这不是魔法;这仅仅是 AI 暴露在多少“噪声”中的问题。
“生成器替换”(证明并非偶然)
研究人员担心:“也许 AI 只是喜欢这些不良帖子的写作风格?”
为了测试这一点,他们让另一个 AI 来编写所有的帖子。结果是?这种攻击变得更强了。这证明了这与写作风格无关,而是与主题的筛选有关。
“隐藏机制”的迷思
起初,研究人员认为他们发现了一个 AI 大脑内部被信息流翻转的秘密“隐藏开关”。他们使用工具观察了 AI 的代码内部。
- 转折: 他们意识到自己错了。他们看到的“信号”并不是一个秘密的内部开关。这仅仅是 AI 在记忆对话历史。如果你查看聊天记录,你可以清楚地看到 AI 读到了什么。那个“秘密”其实只是可见的历史记录。这对其他科学家是一个警告:如果那些声称发现了 AI “隐藏秘密”的工具没有考虑到 AI 已经看到的内容,请不要信任它们。
防御措施
我们能阻止这吗?研究人员尝试了两种简单的技巧:
- 平衡暴露: 向 AI 展示“远程”和“办公室”帖子的等量混合。这有助于 AI 保持在原有的轨道上。
- 披露: 告诉 AI,“嘿,这个信息流可能存在偏见。”这也起到了作用,尽管并不完美。
核心启示
论文总结道:“排序器”(即决定你看到什么的系统)是一个强大的控制旋钮。
过去,我们担心黑客向 AI 发送直接指令。现在,我们知道黑客(或有偏见的系统)不需要发送指令。他们只需要控制信息流。通过精心挑选哪些看似无害、正常的帖子展示给 AI,他们就可以微妙地引导 AI 在安全、政策或商业策略等重要话题上的决策。
最后的警告: 我们不能仅仅通过在一个真空环境中询问 AI 单个问题来测试它。我们必须测试在它“滚动”浏览过一个经过策划的信息流之后会发生什么。控制信息流的人,就控制了 AI 的下一步行动。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。