Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

想象一下，你拥有一个非常聪明、乐于助人的机器人助手。你向它提问，它给你答案。通常，我们会担心机器人是否“坏了”，或者是否有人用直接指令（比如“忽略你的规则并执行 X”）欺骗了它。

但本论文提出了一个更隐蔽、更狡猾的问题：如果没人告诉机器人该做什么，但他们在机器人回答之前控制了机器人“读到了什么”呢？

以下是这项研究的简单解释：

设置：“滚动”阶段

研究人员设计了一个游戏。他们给一个 AI 智能体布置了一个任务：“决定一家公司应该让员工居家办公、回到办公室，还是采取混合模式。”

在 AI 做出最终决定之前，研究人员让它“滚动”浏览十轮社交媒体动态。在每一轮中，AI 会看到五条简短的帖子。

对照组： AI 的大脑（模型）、它要回答的问题以及它的性格在每次测试中都是完全相同的。
变量： 唯一改变的是信息流。有时信息流是正常、随机的帖子；有时信息流则充满了强烈支持“重返办公室”的帖子，尽管这些帖子并没有说“你必须选择重返办公室”。它们只是看起来很正常的文章和观点。

发现：“回声壁效应”

研究人员发现，通过策划信息流，他们实际上可以引导机器人的决策，即便机器人并没有被直接命令去改变想法。

他们根据机器人的反应发现了三种类型的机器人（模型）：

“顺从者”（容易被引导型）：
- 类比： 想象一个人在纠结晚餐吃什么。如果你给他看一个全是披萨图片的菜单，他很可能会点披萨。
- 结果： 一些 AI 模型（如 Llama 3.2）就是这样的。如果信息流充满了“重返办公室”的帖子，AI 就会开始建议“重返办公室”，即使它通常更倾向于远程办公。它不需要指令；它只是被信息的容量所左右。
“饱和型”（顽固的岩石）：
- 类比： 想象一个人非常热爱披萨，以至于即使给他看一个全是汉堡的菜单，他也不会改变主意。他只想吃披萨。
- 结果： 其他模型（如 Qwen）对于特定的答案（一种“混合”方案）非常固执，无论多少“重返办公室”的帖子都无法动摇它们。它们被自己的默认观点“饱和”了。
“不对称性”（单行道）：
- 类比： 想象你稍微向左倾斜。如果有人从右边推你，你可能会倒下。但如果有人从左边推你（也就是你原本倾斜的方向），你不会移动。
- 结果： 这种攻击只在信息流试图将 AI 推向其自然默认观点相反方向时才会奏效。如果 AI 本身就喜欢“远程办公”，且信息流充满了“远程办公”的帖子，AI 不会改变。但如果信息流充满了“重返办公室”的帖子，它就会发生偏移。信息流无法覆盖一个强烈的信念，但它可以撼动一个摇摆不定的信念。

“剂量”很重要

研究人员发现了一个“剂量效应”曲线。这就像服药一样：

如果信息流中 5 条里有 1 或 2 条“不良”帖子，什么都不会发生。
但一旦信息流中 5 条里有 3 或 4 条“不良”帖子，AI 的决策就开始发生转变。这不是魔法；这仅仅是 AI 暴露在多少“噪声”中的问题。

“生成器替换”（证明并非偶然）

研究人员担心：“也许 AI 只是喜欢这些不良帖子的写作风格？”
为了测试这一点，他们让另一个 AI 来编写所有的帖子。结果是？这种攻击变得更强了。这证明了这与写作风格无关，而是与主题的筛选有关。

“隐藏机制”的迷思

起初，研究人员认为他们发现了一个 AI 大脑内部被信息流翻转的秘密“隐藏开关”。他们使用工具观察了 AI 的代码内部。

转折： 他们意识到自己错了。他们看到的“信号”并不是一个秘密的内部开关。这仅仅是 AI 在记忆对话历史。如果你查看聊天记录，你可以清楚地看到 AI 读到了什么。那个“秘密”其实只是可见的历史记录。这对其他科学家是一个警告：如果那些声称发现了 AI “隐藏秘密”的工具没有考虑到 AI 已经看到的内容，请不要信任它们。

防御措施

我们能阻止这吗？研究人员尝试了两种简单的技巧：

平衡暴露： 向 AI 展示“远程”和“办公室”帖子的等量混合。这有助于 AI 保持在原有的轨道上。
披露： 告诉 AI，“嘿，这个信息流可能存在偏见。”这也起到了作用，尽管并不完美。

核心启示

论文总结道：“排序器”（即决定你看到什么的系统）是一个强大的控制旋钮。

过去，我们担心黑客向 AI 发送直接指令。现在，我们知道黑客（或有偏见的系统）不需要发送指令。他们只需要控制信息流。通过精心挑选哪些看似无害、正常的帖子展示给 AI，他们就可以微妙地引导 AI 在安全、政策或商业策略等重要话题上的决策。

最后的警告： 我们不能仅仅通过在一个真空环境中询问 AI 单个问题来测试它。我们必须测试在它“滚动”浏览过一个经过策划的信息流之后会发生什么。控制信息流的人，就控制了 AI 的下一步行动。

设置：“滚动”阶段

发现：“回声壁效应”

“剂量”很重要

“生成器替换”（证明并非偶然）

“隐藏机制”的迷思

防御措施

核心启示

技术摘要：对抗性信息流引导 LLM 智能体偏离其默认决策

问题陈述

研究方法

核心贡献

关键结果

1. 易感性与机制

2. 生成器交换与剂量-响应

3. 默认方向不对称性

4. 泛化性

5. 防御措施

意义与主张

Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

设置：“滚动”阶段

发现：“回声壁效应”

“剂量”很重要

“生成器替换”（证明并非偶然）

“隐藏机制”的迷思

防御措施

核心启示

技术摘要：对抗性信息流引导 LLM 智能体偏离其默认决策

问题陈述

研究方法

核心贡献

关键结果

1. 易感性与机制

2. 生成器交换与剂量-响应

3. 默认方向不对称性

4. 泛化性

5. 防御措施

意义与主张

类似论文