Arbiter: Detecting Interference in LLM Agent System Prompts

本文提出了名为 Arbiter 的框架,通过结合形式化评估规则与多模型扫描技术,成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式,并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。

Tony Mason

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**"AI 程序员”如何被自己的“操作手册”搞晕**的故事,以及作者发明的一套新工具来找出这些手册里的漏洞。

我们可以把这篇论文想象成一次**“给 AI 操作手册做全面体检”**的行动。

1. 核心问题:AI 的“宪法”里全是矛盾

想象一下,你雇佣了一个超级聪明的 AI 程序员(比如 Claude Code、Codex 或 Gemini CLI)。为了让它好好工作,人类给它写了一份长长的**“操作手册”**(也就是论文里说的 System Prompt)。这份手册告诉 AI:

  • “你要用这个工具!”
  • “你永远不要用那个工具!”
  • “你要先写代码,再检查!”
  • “别写代码,直接检查!”

问题出在哪?
在传统的软件里,如果代码写错了,编译器会报错。但在 AI 的世界里,这份“操作手册”没有检查员。当 AI 读到互相矛盾的指令时,它不会报错,而是会**“凭感觉”**(也就是它的训练数据里的直觉)选一个执行。

  • 比喻:就像你给一个司机同时下了两个命令:“全程必须开红灯”和“遇到红灯必须停车”。司机不会报警,他会凭心情决定是闯红灯还是停车。结果就是,有时候他开得对,有时候他撞车了,但你根本不知道他为什么这么做。

2. 解决方案:Arbiter(仲裁者)

作者 Tony Mason 发明了一个叫 Arbiter 的工具,专门用来给这些“操作手册”挑刺。它用了两种方法,就像侦探破案一样:

方法一:定向考古(Directed Evaluation)

  • 怎么做:像法医一样,把操作手册切成一块一块的,然后拿着“规则清单”去比对。
  • 例子:规则是“如果 A 说‘必须做’,B 说‘禁止做’,那就是矛盾”。
  • 效果:这能找出所有明面上的矛盾。比如在 Claude Code 的手册里,它发现“必须频繁使用 TodoWrite 工具”和“提交代码时禁止使用 TodoWrite"这两条指令直接打架。

方法二:无定向扫荡(Undirected Scouring)

  • 怎么做:这是最精彩的部分。作者没有给 AI 定死规则,而是把操作手册扔给10 个不同的 AI 模型,对它们说:“你仔细读读,觉得哪里奇怪或者有趣就告诉我。”
  • 为什么要用 10 个? 因为不同的 AI 就像不同专业背景的侦探。
    • 有的 AI 像会计师,专门看哪里会浪费钱(比如无限生成 Token)。
    • 有的 AI 像安全专家,专门看哪里会被黑客利用。
    • 有的 AI 像逻辑学家,专门看哪里前后矛盾。
  • 效果:这种“盲扫”发现了定向检查发现不了的问题。比如,Google 的 Gemini CLI 有一个隐藏的大坑:当你保存了用户的偏好设置,系统为了节省空间压缩历史记录时,会把用户的偏好设置直接删掉。这个逻辑漏洞,只有那个像“数据完整性侦探”的 AI 模型才发现了。

3. 三大发现:手册写得越乱,AI 越容易疯

作者分析了三家大公司的 AI 手册,发现它们的结构决定了故障的类型

  1. 独裁式(Monolithic):像一块巨大的披萨

    • 代表:Claude Code(1490 行,巨长)。
    • 问题:因为太长,不同部门的人各写各的,最后拼在一起。就像把“必须吃素”和“必须吃肉”写在同一张纸上。
    • 后果:在模块交界处(比如写代码和提交代码的切换点)经常打架。
  2. 扁平式(Flat):像一张简单的清单

    • 代表:Codex CLI(298 行,很短)。
    • 问题:太简单了,功能少,矛盾也少。
    • 后果:虽然不容易打架,但能力也有限,而且有时候会漏掉一些重要的身份说明(比如它到底是谁)。
  3. 模块化(Modular):像乐高积木

    • 代表:Gemini CLI(由代码动态组装)。
    • 问题:每一块积木单独看都没问题,但拼在一起的时候,接口没对上。
    • 后果:就像你拼了一个乐高房子,结果发现“窗户”和“墙壁”的接口不匹配,导致房子漏风(比如刚才说的保存偏好被删除的问题)。

4. 惊人的结论:只要 27 美分

这篇论文最让人震惊的不是发现了多少漏洞,而是成本

  • 作者跑完这一整套针对三家大公司的分析,总共只花了 0.27 美元(不到 3 元人民币)。
  • 比喻:这比你在美国买一杯咖啡便宜得多,甚至不够付一个保安 3 分钟的小时工资。
  • 意义:这意味着,检查 AI 操作手册是否安全、是否矛盾,不需要大公司的巨额预算,任何有 API 权限的开发者都能做。但问题是,现在几乎没人做

5. 总结:给 AI 立规矩,得用“外脑”

这篇论文告诉我们:

  • AI 不能自己检查自己:就像人很难发现自己写的文章里有逻辑漏洞一样,AI 也会“糊弄”过矛盾。
  • 需要“外脑”:必须用不同的 AI 模型互相挑刺,才能发现真正的隐患。
  • 手册就是代码:操作手册不是随便写的几句话,它是软件。如果软件没有测试、没有检查,那它迟早会出大事故。

一句话总结
现在的 AI 程序员手里拿着一本充满矛盾、没人检查的“操作手册”在干活,作者发明了一个只要花 27 美分就能帮我们把这本手册里的坑全挖出来的工具,并警告大家:如果不检查,AI 迟早会把自己搞崩溃。