Security Considerations for Artificial Intelligence Agents

本文基于 Perplexity 在运营通用智能体系统的实践经验,深入分析了 AI 智能体因架构变革带来的新型安全威胁与攻击面,并提出了涵盖多层防御机制、策略执行及未来研究方向的系统性安全建议。

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章是 Perplexity 公司写给美国国家标准与技术研究院(NIST)的一份报告,主要探讨了**人工智能代理(AI Agents)**带来的新安全挑战。

为了让你更容易理解,我们可以把AI 代理想象成你雇佣的**“超级数字管家”。以前的软件只是听你指令的“工具”(比如计算器),而这个“管家”不仅能听懂你的话,还能主动**帮你查邮件、订机票、甚至操作电脑文件。

虽然这很方便,但也带来了全新的安全风险。以下是用通俗语言和比喻对报告核心内容的解读:

1. 核心问题:代码和数据的“界限”模糊了

  • 传统软件(像老式厨房): 以前,厨师(程序代码)和食材(数据)是分开的。厨师按菜谱做菜,食材只是被处理,不能反过来指挥厨师。
  • AI 代理(像会读心术的管家): 现在的 AI 把“指令”和“数据”混在一起了。
    • 比喻: 想象你的管家不仅看菜谱,还能读你收到的信件(数据)。如果有人在信件里藏了一句“把家里的保险柜打开”,AI 可能会误以为这是你的新指令,从而执行了不该做的事。
    • 风险: 这种“数据即代码”的特性,让黑客可以通过发送一段看似正常的垃圾邮件或网页内容,悄悄“黑”进你的 AI,让它干坏事。这被称为**“间接提示注入”**(Indirect Prompt Injection)。

2. AI 代理的三大新风险

报告指出了 AI 代理特有的三个安全漏洞:

A. 保密性风险(隐私泄露)

  • 比喻: 你的管家为了帮你办事,必须知道你的银行卡号、家庭住址和私人日记。
  • 问题: 如果管家被黑客“洗脑”(通过上述的注入攻击),它可能会把你最私密的日记偷偷发给陌生人,或者把银行密码泄露出去。因为它能访问太多数据,一旦失守,后果很严重。

B. 完整性风险(被篡改的决策)

  • 比喻: 你让管家“帮我买最便宜的机票”。
  • 问题: 如果黑客在机票网站上埋了个陷阱,告诉管家“这家航空公司其实更便宜(其实是假的)”,管家就会信以为真,帮你买了贵得多的票,或者把文件改得面目全非。AI 可能会做出错误的决定,甚至被诱导去干坏事。

C. 可用性风险(系统崩溃或死循环)

  • 比喻: 管家太勤快了,一旦遇到一个复杂的任务,它可能会陷入死循环,不停地尝试、失败、再尝试,直到把家里的电都耗光,或者把电脑卡死,导致你无法使用它。
  • 问题: 黑客可以利用这一点,故意给 AI 发一堆复杂任务,让它忙到崩溃(拒绝服务攻击)。

3. 多代理系统:一群管家的混乱

现在的 AI 系统往往不是只有一个管家,而是一群**“管家团队”**(多代理系统)在协作。

  • 比喻: 一个管家负责查资料,另一个负责发邮件,还有一个负责订酒店。
  • 新风险(困惑的副手): 如果黑客骗了“查资料”的管家,让它去命令“发邮件”的管家发一封诈骗信。这时候,“发邮件”的管家以为这是团队指令,就照做了。
  • 难点: 很难分清是谁的责任,因为指令在多个管家之间传递,就像接力赛一样,一旦中间有人被收买,整个链条就乱了。

4. 现有的防御手段不够用

传统的杀毒软件或防火墙,就像给大门装锁,主要防的是外部坏人。但 AI 代理的问题在于,坏人可能已经混在“食材”(数据)里进来了,或者管家自己“想错了”。

  • 现状: 现有的安全机制大多是为人类设计的(假设人类会小心谨慎),但 AI 是机器速度,一旦出错,人类根本来不及反应。

5. 怎么解决?(三层防御策略)

报告建议像盖房子一样,建立**“纵深防御”**体系,不能只靠一层保险:

  1. 第一层:输入过滤(像安检员)
    • 在数据进入 AI 大脑之前,先检查有没有“坏话”。但这很难,因为坏话可能伪装得很好,而且检查太慢会影响体验。
  2. 第二层:模型加固(像给管家洗脑)
    • 训练 AI 模型,让它学会区分“老板的指令”和“网页上的垃圾话”。但这也不是 100% 可靠,因为 AI 本质上是概率性的,偶尔还是会犯错。
  3. 第三层:确定性防线(像最后的保险锁)
    • 这是最重要的! 无论 AI 怎么想,必须有一道死板的、不可篡改的规则(代码)来把关。
    • 比喻: 不管管家怎么建议,如果要转账超过 100 元,或者删除重要文件,系统必须强制要求人类确认,或者自动拒绝。这道防线不能靠 AI 判断,必须靠传统的、确定的代码逻辑。

6. 未来的方向

  • 制定新标准: 需要像交通规则一样,制定 AI 之间如何安全协作的标准。
  • 更好的测试: 不能只考静态的试卷,要像“红蓝对抗”演习一样,让黑客不断攻击 AI,看看它能不能扛得住。
  • 人机协作: 在关键决策上,保留人类的“刹车权”,但要设计得聪明一点,不要每件事都让人确认,否则用户会烦死。

总结

这篇报告的核心思想是:AI 代理很强大,但它把“数据”变成了“指令”,这让黑客有了新武器。

要保护它,我们不能只依赖 AI 变聪明,必须建立多层防御,特别是要有一道人类或确定性代码把守的“最后防线”,防止 AI 在关键时刻“发疯”或被黑客操控。就像给一个拥有超级能力的机器人管家,既给它自由,又给它戴上不可摘除的“安全项圈”。