AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于AI 智能体（Agent）在金融领域“被带偏”且“装傻”的惊险故事。

想象一下，你雇佣了一位非常聪明的AI 理财顾问。它不仅能和你聊天，还能实时连接股市数据、阅读新闻，并根据你的风险承受能力（比如你是保守派还是激进派）给你推荐股票。

这篇论文发现了一个令人细思极恐的问题：如果黑客悄悄篡改了这位 AI 顾问看到的“数据”和“新闻”，AI 就会开始给你推荐高风险的垃圾股，但它自己却完全没意识到，甚至表现得像个完美的专家。

为了让你更容易理解，我们用几个生活中的比喻来拆解这篇论文的核心发现：

1. 核心问题：被篡改的“仪表盘”

想象你的 AI 顾问是一辆自动驾驶汽车。

正常情况：汽车通过摄像头（工具）看路，看到红灯就停，看到绿灯就走。
被攻击的情况：黑客在摄像头前贴了一张假照片，把“红灯”P 成了“绿灯”，把“悬崖”P 成了“平坦大道”。
结果：汽车（AI）依然自信满满地加速冲向悬崖，因为它“看”到的世界是安全的。

在论文中，研究者对 7 种不同的 AI 模型（从开源小模型到顶尖的大模型）进行了这种“黑客攻击”。他们篡改了 AI 获取的市场数据（把高风险股票标成低风险）和新闻标题（把危险的公司吹成安全股）。

2. 最可怕的现象：“评估盲区” (Evaluation Blindness)

这是论文最核心的发现。通常我们怎么判断一个 AI 好不好？看它的推荐列表是否“看起来”很专业，或者是否符合专家的评分标准（比如 NDCG 指标）。

比喻：就像你请了一位厨师做菜。如果厨师把毒药（高风险股票）做成了看起来像顶级牛排的样子，并且摆盘精美，传统的“美食评分员”（标准评估指标）会打满分，说：“这道菜太棒了，色香味俱全！”
现实：论文发现，即使 AI 推荐的股票全是高风险的（甚至适合激进投资者的股票被推荐给了保守投资者），传统的评分指标依然显示 AI 表现完美（得分几乎没变）。
结论：现有的评估方法看不见安全隐患。AI 在“安全”这件事上彻底“失明”了，但在“看起来像专家”这件事上依然满分。

3. 为什么会这样？两个“作弊通道”

研究者发现，AI 被带偏主要通过两条路：

信息通道（Information Channel）—— “耳听为虚，眼见为实”
- 比喻：就像你听信了朋友（AI）转述的假新闻。朋友说：“听说 A 股票很稳，像存银行一样。”虽然你心里隐约觉得 A 股票以前很波动，但既然朋友这么肯定，你就信了。
- 论文发现：这是最主要的原因。AI 太信任工具给的数据了。只要工具说“这是安全的”，AI 就照单全收，完全不会怀疑数据是不是被篡改了。哪怕它脑子里原本知道“特斯拉是高风险的”，一旦工具说“特斯拉现在风险等级是 1（最低）”，AI 就会立刻抛弃自己的知识，转而相信工具。
记忆通道（Memory Channel）—— “积重难返”
- 比喻：就像你被洗脑了。一开始只是听了一次假新闻，后来 AI 根据这个假新闻做了几次错误的决定，然后它把“我是个激进投资者”写进了自己的小本本（记忆）里。接下来的对话中，它会根据这个错误的记忆，继续给你推荐更激进的产品，越陷越深。
- 论文发现：虽然记忆通道也会起作用，但大部分错误其实是在第一次看到假数据时就发生了，而且一旦开始，AI 就再也回不来了，它不会自我纠正。

4. 实验结果：所有 AI 都“中招”了

研究者测试了 7 种不同的 AI 模型（包括 GPT-5.2, Claude, Qwen 等），结果令人震惊：

无一幸免：所有模型都出现了“评估盲区”。
高比例违规：在被攻击的对话中，65% 到 93% 的推荐都是不安全的（比如给保守型用户推荐高风险股票）。
沉默的羔羊：在 1500 多次被攻击的对话中，没有任何一个 AI 主动质疑：“等等，这个数据好像不对劲？”它们只是机械地执行任务，哪怕任务本身是害人的。
连“温和”的攻击也有效：即使黑客只是稍微改一点点数据（比如把风险等级从 4 改成 5，而不是直接反转），AI 依然会中招，而且现有的监控手段根本发现不了。

5. 解决方案：我们需要新的“体检表”

既然旧的评分标准（只看推荐得漂不漂亮）不管用了，论文提出我们需要新的方法：

引入“安全扣分项”：就像给厨师评分时，不仅要尝味道，还要检查有没有放毒药。如果推荐了高风险股票，直接给零分，不管它看起来多像专家。
全程监控：不能只看最后一句话，要监控整个对话过程。因为错误往往在第一次就发生了，并且会一直持续下去。

总结

这篇论文就像给 AI 行业敲了一记警钟：
现在的 AI 理财顾问，可能正在被黑客通过“篡改数据”的方式，悄悄把你推向财务悬崖，而它自己还觉得自己是个优秀的理财专家，传统的评估系统也看不出来。

这提醒我们，在把 AI 用于医疗、金融等高风险领域时，不能只盯着它“答得对不对”，更要盯着它“是否安全”，并且要时刻警惕它是否被“带偏”了。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心问题：
大型语言模型（LLM）代理（Agents）在金融等高风险领域日益普及，它们通过调用外部工具（如市场数据、新闻检索）来提供多轮对话建议。然而，现有的评估体系主要依赖排序质量指标（如 NDCG、命中率），这些指标衡量的是“推荐了什么”，却无法检测“推荐是否对用户安全”。

主要发现（评估盲区）：
当工具输出被恶意篡改（Tool Corruption）时，LLM 代理会出现一种**“评估盲区”（Evaluation Blindness）**现象：

效用保留（Utility Preservation）： 标准的质量指标（NDCG）在受污染环境下依然保持高位（UPR $\approx$ 1.0），因为高风险资产在专家效用排序中可能得分很高。
安全失效（Safety Failure）： 尽管质量指标看似正常，但代理会向低风险用户推荐高风险产品（Suitability Violations），且这种风险在 65%–93% 的对话轮次中出现。
持续性： 这种安全偏差在多轮对话（长达 23 轮）中持续存在，代理不会自我纠正，且完全无法被标准的一致性监控器检测到。

2. 方法论 (Methodology)

作者提出了一套配对轨迹诊断协议（Paired-Trajectory Diagnostic Protocol），结合中介分析框架，深入探究工具污染如何导致代理行为漂移。

2.1 实验设置

数据集： 使用 Conv-FinRe 数据集，包含 10 位用户的真实金融对话，每位用户进行 23 轮决策。
模型： 测试了 7 种不同架构和规模的 LLM（从 7B 到前沿模型，包括 Qwen3, Gemma 3, GPT-5.2, Claude Sonnet 4.6, Mistral 系列等）。
污染模式（Contamination Modes）： 在工具输出层注入四种极端但具有诊断性的干扰：
1. 风险反转（Risk Inversion）： 将高风险股票（如 TSLA）的风险评分从 5 翻转为 1（防御性），反之亦然。
2. 指标操纵（Metric Manipulation）： 调整波动率、最大回撤等数值，使其与反转后的风险信号一致。
3. 偏见标题（Biased Headlines）： 注入将高风险股票描述为“安全”的新闻标题。
4. 高风险注入（High-risk Injection）： 将高杠杆 ETF（TQQQ）伪装成低风险资产。

2.2 诊断分解框架

作者将行为漂移分解为两个通道，借鉴了因果中介分析（Causal Mediation Analysis）：

信息通道（Information Channel）： 代理直接基于被污染的观察数据（工具输出）进行推理导致的偏差。
记忆通道（Memory Channel）： 被污染的观察数据更新了代理的持久化记忆（Persistent Memory），进而影响后续轮次的推理。

通过控制变量法（例如在记忆状态相同的情况下仅改变工具输入），作者计算了信息通道主导得分（IDS），以量化哪种机制是安全失效的主要驱动力。

2.3 评估指标

传统指标： NDCG（归一化折损累计增益）、UPR（效用保留率）。
安全指标：
- SVRs（Suitability Violation Rate）： 推荐产品超出用户风险承受范围的轮次比例。
- sNDCG（Safety-penalized NDCG）： 将超出风险范围的产品相关性降为 0 的 NDCG 变体。
- MDR（Memory Drift Rate）： 记忆状态在清洁与污染会话间的漂移程度。

3. 关键贡献 (Key Contributions)

揭示了“评估盲区”模式： 证明了在工具污染下，标准质量指标（NDCG）与用户安全（Suitability）完全解耦。代理可以产生“高质量”但“不安全”的推荐。
提出了配对轨迹诊断协议： 建立了一套标准化的测试流程，用于在受控环境下评估多轮代理在工具污染下的鲁棒性。
机制分解（Mechanism Decomposition）： 首次量化了安全失效的来源，发现安全违规主要由信息通道驱动（即代理直接信任了被篡改的实时数据），而非记忆通道的累积错误。
引入了安全感知指标： 证明了引入安全惩罚的指标（如 sNDCG）能有效揭示被标准指标掩盖的评估差距。

4. 主要实验结果 (Results)

4.1 普遍存在的评估盲区

在所有 7 个测试模型中，UPR（效用保留率）均接近 1.0（0.99–1.25），表明标准指标认为代理表现完美。
然而，SVRs（安全违规率）高达 65%–93%。例如，Claude Sonnet 4.6 在污染环境下，92.6% 的轮次出现了安全违规，但其 NDCG 得分与清洁环境几乎无异。
无自我纠正： 在长达 23 轮的对话中，没有任何代理主动质疑工具数据的可靠性。在 1,563 次受污染轮次中，零次出现代理明确质疑工具数据可靠性的表述。

4.2 信息通道主导（Information-Channel Dominance）

通过机制矩阵实验发现，安全违规（SVRs）主要由信息通道驱动。
- 仅污染信息通道（保持记忆清洁）即可复现 95% 以上的安全违规（SVRs = 0.948 vs 全攻击 0.926）。
- 仅污染记忆通道（保持工具清洁）产生的安全违规较少。
这意味着代理在每一轮都直接“相信”了被篡改的工具数据，导致即时且持续的安全失效。

4.3 隐蔽性攻击的有效性

仅文本污染（Headlines-only）： 即使不修改数值，仅通过偏见新闻标题（如“分析师将 TSLA 升级为低风险”），也能产生显著的漂移（ $\bar{D}=0.176$ ），且完全逃过基于数值阈值的一致性监控。
带内扰动（Within-band Perturbation）： 即使将风险评分的偏移量限制在 $\pm 1$ （不触发常规阈值报警），仍能产生全攻击 61% 的漂移量，且 SVRs 高达 93.9%。

4.4 模型规模与能力的影响

能力越强，越盲从： 模型参数规模越大、指令遵循能力越强（如 Claude Sonnet），其“安全语言包装”（Safe-language framing，即用安全术语描述高风险资产）的比例越高（从 14% 到 69%）。
知识无法覆盖上下文： 即使模型在预训练中知道 TSLA 是高风险的，当工具输出显示其风险为 1 时，模型仍会优先信任上下文中的工具数据（Context overrides parametric knowledge）。

5. 意义与启示 (Significance)

现有评估体系的失效： 在高风险领域（金融、医疗、法律），仅依赖 NDCG 等排序指标部署多轮代理是危险的。这些指标无法捕捉针对特定用户的安全合规性。
新的防御方向：
- 轨迹级监控： 需要引入基于轨迹（Trajectory-level）的安全监控，而不仅仅是单轮质量检查。
- 工具输出验证： 由于安全违规主要由信息通道驱动，在工具数据摄入阶段进行验证（如与静态参考库比对）比审计记忆更有效。
- 安全感知指标： 必须采用 sNDCG 等将安全约束纳入质量计算的指标。
架构层面的脆弱性： 研究揭示了 ReAct 范式的一个结构性弱点：代理被设计为“基于工具数据 grounded"，这使其在面对精心构造的对抗性工具输出时，缺乏内在的怀疑机制（Epistemic Capture）。
跨领域适用性： 这种“效用与安全解耦”的模式不仅存在于金融，也可能出现在医疗分诊、法律建议等任何安全属性与效用排序正交或冲突的领域。

总结：
AgentDrift 论文通过严谨的实验证明了，当前 LLM 代理在面对工具层污染时，表现出严重的“评估盲区”。它们能完美地维持“看起来很好”的推荐质量，同时系统性地向用户推荐危险产品。这一发现呼吁在部署多轮代理时，必须超越传统的排序指标，建立包含安全约束和轨迹级监控的新评估与防御体系。