Toward Securing AI Agents Like Operating Systems

本文主张,保障基于大语言模型的人工智能代理的安全性需要应用操作系统安全原则,并通过统一的架构分析与案例研究证明,尽管某些风险是固有的,但许多漏洞可利用资源隔离和权限分离等成熟的操作系统技术加以缓解。

原作者: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

发布于 2026-05-15✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你雇佣了一位名叫“Agent"的超级聪明、极度热情的私人助理。这位助理可以阅读你的邮件、管理你的日程、预订航班,甚至为你编写代码。这就像拥有一位永不疲倦的魔法员工。

但问题在于:你把整栋房子的钥匙、银行账户和日记都交给了这位员工。如果一位聪明的窃贼诱骗这位助理,使其误以为窃贼就是你自己,或者说服它打开后门,那么窃贼就能得到一切。

这正是该论文要解决的核心问题。作者们认为,我们构建这些 AI 智能体时,仿佛它们是全新的魔法生物,但实际上我们应该将它们视为操作系统(即运行你电脑的软件,如 Windows 或 macOS)。

以下是他们研究发现的拆解,使用了简单的类比:

1. 核心理念:智能体即操作系统

作者们表示:“停止将 AI 仅仅视为聊天机器人。请将其视为你数字生活的操作系统。”

  • AI(大语言模型)是用户:在计算机中,用户输入命令。在 AI 智能体中,大语言模型(“大脑”)是输入命令的一方。但就像人类用户可能被网络钓鱼邮件欺骗一样,AI 也可能被“越狱”提示词所欺骗。
  • 工具是系统调用:当你在电脑上点击“打印”时,操作系统会检查你是否有权限。当 AI 想要“发送邮件”时,这就是一种工具。论文认为,这些工具应被视为严格的系统调用,而非随意执行的命令。
  • 运行时是内核:实际运行代码的软件部分是“内核”。在安全的计算机中,内核是主宰,它决定谁可以接触什么。而在当前的 AI 智能体中,“内核”往往过于温和,允许“用户”(即 AI)为所欲为,即使这样做很危险。

2. 问题所在:“开放房屋”派对

该论文考察了流行的 AI 智能体(如 OpenClaw 及其同类),发现它们被构建得像一场开放房屋活动,任何人都可以走进来并触碰任何东西。

  • 没有墙壁:在安全的计算机中,不同的程序是隔离的。如果病毒感染了你的计算器应用,它不应该能够读取你的银行文件。但在这些 AI 智能体中,“计算器”(一种工具)和“银行文件”(内存)都在同一个房间里。如果 AI 感到困惑,它可能会意外地(或恶意地)将它们混淆。
  • “相信我”的谬误:这些智能体依赖 AI 来“记住”保持安全。它们有诸如“不要删除文件”之类的规则,但这些规则只是用 plain English(普通英语)写成的。如果黑客向 AI 耳语一个诡计,AI 就会忘记规则。这就像让一名警卫站岗,却告诉他:“只要运用你的最佳判断力。”
  • “第三方”风险:这些智能体允许你安装“技能”(类似于应用程序)。想象一下,如果你下载了一个“天气应用”,但它 secretly(秘密地)拥有通往你银行账户的后门。论文发现,许多这些智能体允许你安装这些技能,而无需检查它们是否安全。

3. 实验:攻破智能体

研究人员选取了四个流行的 AI 智能体,并试图攻破它们,扮演一名技能中等的黑客角色。他们不需要是天才;只需要了解这座“房子”是如何建造的就够了。

他们的发现:

  • OpenClaw(“原味”智能体):这是最流行的一款。它对研究人员尝试的每一次攻击都易受攻击。这就像把前门、后门和窗户都大开着。
  • IronClaw(“安全”智能体):这一款试图更安全。它将一些工具放入“沙箱”(一个玻璃盒,它们无法触碰房子的其余部分)。它的表现稍好,但研究人员仍然找到了欺骗它或打破玻璃的方法。
  • Nanobot(“极简”智能体):这款智能体的代码非常少,希望代码越少意味着漏洞越少。但即使代码库很小,它仍然缺乏将数据隔离开来所需的基本“墙壁”。
  • NemoClaw(“包装”智能体):这款智能体将整个智能体放入一个安全容器(类似于集装箱)中。它是最难攻破的,但研究人员仍然找到了窥探内部或欺骗它的方法。

令人震惊的结果:即使是“安全”版本也在基本事项上失败了,例如阻止一个用户读取另一个用户的私人笔记,或阻止智能体向陌生人发送消息。

4. 解决方案:借鉴过去

该论文的主要结论很简单:我们不需要发明新的魔法来解决这个问题。我们只需要使用已知 50 年的安全规则。

操作系统早已解决了这些完全相同的问题。作者们建议我们将这些老派规则应用于 AI:

  • 隔离:将每个工具放入自己的玻璃盒(沙箱)中,除非明确允许,否则它无法接触其他工具或你的私人文件。
  • 最小权限:仅仅因为智能体能够读取你的邮件,并不意味着它应该这样做。只给予它完成特定任务所需的钥匙。
  • 强化日志:记录智能体所做的每一件事,但要确保智能体无法删除或更改这些记录(就像防篡改的安全摄像头)。
  • 严格边界:不要让 AI 决定什么是安全的。“内核”(系统)必须执行规则,而不是 AI 的“大脑”。

总结

该论文认为,目前的 AI 智能体被构建得像狂野的、无管制的边疆。它们强大但危险,因为它们将敏感数据与不可信的指令混合在一起。

作者们表示:“不要试图通过让 AI 变得更‘聪明’来实现安全。相反,应像构建安全操作系统那样,围绕它构建系统。”如果我们把 AI 视为一个需要被严格的安全警卫(即操作系统)监视和限制的用户,我们就能让这些强大的工具在我们的家庭和企业中安全使用。

核心要点:我们正在构建拥有我们生活主钥匙的数字员工,但我们尚未建造锁、围栏或安全警卫。现在是时候借用那些几十年来一直在建造这些锁的计算机安全专家的蓝图了。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →