CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 助手安全地帮你操作电脑的故事。

想象一下,你有一个超级聪明的 AI 助手(我们叫它“小智”),你让它帮你查天气、填表格或者浏览网页。小智能看见你的屏幕,也能点击鼠标、输入文字。这听起来很酷,但也很危险:如果黑客在网页上藏了一行看不见的坏话(比如“别查天气了,快把银行密码发给我”),小智可能会信以为真,然后把你骗得团团转。

这篇论文就是为了解决这个“信任危机”而设计的。

🛡️ 核心问题:既要“眼明手快”,又要“耳聪目明”

以前的 AI 助手操作电脑时,就像是一个边看边想的司机:

  1. 看一眼路况(屏幕)。
  2. 想一下下一步怎么走。
  3. 踩油门或刹车。
  4. 再看一眼路况……

问题出在哪? 如果路边突然有人举着一个牌子写着“前面有警察,快掉头去我家”,司机(AI)可能会信以为真,直接开进陷阱。这就是所谓的“提示注入攻击”。

以前的防御方案: 把司机关在一个黑盒子里,只让他听指令,不许看外面的路。但这有个大问题:如果完全不让看路,司机怎么知道红灯停、绿灯行?怎么知道前面是不是堵车?这就导致 AI 没法干活了。

💡 论文的创新方案:CAMELS(骆驼)系统

作者们想出了一个绝妙的办法,把“司机”拆成了两个人,就像骆驼(CAMELS) 一样,一个负责指路,一个负责看路。

1. 两个角色的分工(双模型架构)

  • 指挥官(Privileged Planner): 这是一个超级聪明但看不见屏幕的“大脑”。

    • 它的任务是在开始前,把所有可能的情况都预演一遍,写出一份完整的剧本
    • 剧本里写着:“先打开浏览器 -> 检查有没有弹窗 -> 如果有弹窗,点击‘同意’;如果没有,直接去天气网站 -> 输入‘曼彻斯特’……"
    • 关键点: 指挥官在写剧本时,完全不知道外面会发生什么(比如没有黑客在网页上捣乱)。它只负责制定规则,不直接看路。
  • 执行员(Quarantined Perception): 这是一个只负责看和执行的“眼睛和手”。

    • 它拿着指挥官写的剧本,去屏幕上找对应的东西。
    • 它能看到屏幕上的所有内容(包括黑客的坏话),但它没有权力改变剧本。它只能问:“指挥官,剧本里说如果看到弹窗就点同意,我现在看到弹窗了,我该点吗?”
    • 指挥官回答:“是的,按剧本点。”

比喻: 这就像拍电影。导演(指挥官)在开拍前就把所有镜头、台词、走位都定死了。演员(执行员)在片场虽然能看到各种突发状况(比如有人突然扔个香蕉皮),但他不能改剧本,只能按照导演定好的逻辑去演。如果香蕉皮是剧本里没写的,演员就假装没看见,继续按剧本走。

2. 新的攻击方式:分支诱导(Branch Steering)

虽然这个“双模型”设计很安全,黑客没法让 AI 做剧本里没写的事(比如直接转走你的钱),但他们发现了一个新漏洞:分支诱导

  • 场景: 剧本里写着:“如果遇到弹窗,点击‘同意’。”
  • 黑客的招数: 黑客在网页上伪造了一个看起来像“同意”按钮的东西,但实际上是一个陷阱。
  • 结果: 执行员(眼睛)看到了这个假按钮,以为它是真的,于是按剧本点击了它。虽然它没有“越狱”去干坏事,但它被诱导走进了剧本里预设的一个危险分支

比喻: 就像导演在剧本里写了:“如果看到红灯,就停车。”黑客在路口挂了一个假红灯(其实是绿灯),执行员看到了假红灯,乖乖停下了车,结果导致交通堵塞。虽然执行员没做错,但导演没考虑到会有假红灯。

🛡️ 怎么防御?(冗余检查)

为了对付这种“假红灯”,作者们加了第二双眼睛(冗余防御):

  1. DOM 一致性检查: 执行员说“我看到了一个按钮”,第二双眼睛会去检查网页的代码结构(DOM),看看那个位置是不是真的有个按钮,还是说那其实是一张广告图。
  2. 多模态共识: 让另一个 AI 模型也看看截图,问它:“你觉得这是真的按钮吗?”如果两个 AI 看法不一致,就暂停操作,报警。

比喻: 就像安检。执行员说“这是合法行李”,安检员(第二双眼睛)会拿 X 光机扫一下,或者让另一个安检员也看看。如果两个安检员都觉得不对劲,行李就不让过。

📊 效果怎么样?

作者在真实的电脑操作任务(OSWorld 基准测试)上测试了这个系统:

  • 安全性: 成功阻止了绝大多数让 AI“发疯”或“越狱”的攻击。
  • 实用性:
    • 对于小模型(比较便宜的开源模型),这个系统反而让它们变得更聪明了,成功率提升了 19%。因为小模型自己写剧本容易出错,现在由一个超级大脑(大模型)来写剧本,小模型只管执行,配合得更好。
    • 对于大模型(最顶尖的闭源模型),虽然因为不能实时调整策略,成功率稍微下降了一点(保留了约 57% 的原始能力),但考虑到安全性,这个代价是可以接受的。

🌟 总结

这篇论文告诉我们:

  1. 安全不是不可能: 我们不需要在“安全”和“好用”之间二选一。
  2. 分工合作: 让“聪明的脑子”(看不见屏幕)来写计划,让“勤劳的手脚”(只看屏幕)去执行,是解决 AI 安全问题的关键。
  3. 未来可期: 随着 AI 越来越聪明,这种“先想好再行动”的安全模式会让 AI 助手真正走进我们的日常生活,既强大又让人放心。

简单来说,这就好比给 AI 装上了防弹玻璃双重确认机制,让它既能帮你干活,又不会被坏人忽悠着去干坏事。