Runtime Governance for AI Agents: Policies on Paths

该论文提出了一种以执行路径为核心的 AI 代理运行时治理框架,通过将合规策略形式化为基于代理身份、路径历史、拟议动作及组织状态来评估违规概率的确定性函数,论证了相较于提示词指令和静态访问控制,运行时评估对于处理路径依赖行为及平衡任务成功率与各类风险成本的必要性。

Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章提出了一种管理AI 智能体(AI Agents)的新方法。为了让你轻松理解,我们可以把 AI 智能体想象成一群“拥有自主决策能力的超级实习生”,而这篇文章就是给这些实习生制定的一套**“实时行为监管系统”**。

以下是用通俗语言和生动比喻对这篇论文核心内容的解读:

1. 核心问题:为什么老办法不管用了?

以前的软件像“火车”
以前的自动化程序就像在铁轨上跑的火车。路线是设计好的(A 到 B 到 C),只要铁轨没坏,火车就不会出轨。管理者只需要在发车前检查好铁轨(设计时治理),之后就可以放心睡觉。

现在的 AI 智能体像“野马”
现在的 AI 智能体(比如能自动写报告、查数据、发邮件的 AI)更像是一群野马

  • 不可预测:你给它同一个任务(“去查一下竞争对手的价格”),它每次跑的路径可能都不一样。有时候它先查数据库,有时候先上网搜,有时候甚至自己写个小程序来加速。
  • 路径依赖:单独看它做的每一步(比如“查数据库”或“发邮件”)可能都是合法的。但如果它查了绝密数据,然后发邮件,这就构成了“数据泄露”。
  • 老办法的失效
    • 提示词(Prompting):就像给野马口头嘱咐“别乱跑”。这有点用,但野马可能听不进去,或者被坏人骗了(提示词注入)。
    • 权限控制(Access Control):就像给野马戴上笼头,规定“只能吃草,不能吃肉”。但这无法防止它“先吃草,再偷偷把草打包带走”这种组合拳式的违规。

结论:传统的“事前检查”和“死板权限”管不住这种动态、多变、且违规往往发生在“动作组合”中的 AI。我们需要一种**“实时监管”**。


2. 核心方案:实时监管系统(Runtime Governance)

作者提出了一套新框架,核心思想是:不要只盯着终点,要盯着每一步的“行进路线”。

比喻:机场安检与飞行塔台

想象 AI 智能体是一个飞行员,它要执行任务(飞行)。

  • 旧模式:起飞前检查飞行员证件(设计时治理),然后让它自己飞。
  • 新模式(本文方案):建立一个**“实时飞行塔台”**(Policy Engine)。

这个塔台的工作流程是这样的:

  1. 看历史(路径 PiP_i:飞行员刚才做了什么?(比如:刚访问了机密文件)。
  2. 看意图(下一步动作 ss^*:飞行员现在想做什么?(比如:想发一封邮件)。
  3. 看全局(共享状态 Σ\Sigma:公司里其他飞行员有没有违规?有没有触发过“信息隔离墙”?
  4. 算风险(策略函数 π\pi:塔台瞬间计算:“如果让他现在发邮件,结合他刚才查机密文件的行为,违规概率是 80% 还是 5%?”
  5. 做决定(干预 δ\delta
    • 放行:风险低,继续飞。
    • 拦截:风险高,直接切断连接(任务失败)。
    • 叫停:风险中等,暂停飞行,呼叫人类主管来拍板(Human Approval)。

关键创新点

  • 路径依赖:它不是看“发邮件”这个动作本身违不违规,而是看“在查了机密文件之后发邮件”违不违规。
  • 确定性:虽然 AI 是随机的,但监管规则必须是死板的、确定的。同样的历史 + 同样的意图,必须得出同样的监管结果,这样以后审计时才能说得清。

3. 这个系统长什么样?(架构)

作者把这个系统分成了两个阶段,就像**“入职培训”“日常考勤”**:

  1. 入职/注册阶段(Registration Phase)

    • 在 AI 开始干活前,先检查它的“身份证”(身份、目的、是否被篡改过)。
    • 如果它是个没备案的“黑户”,或者它的代码被偷偷改过,直接拒绝上岗。
    • 比喻:进公司大门前的保安检查。
  2. 每一步的实时检查(Per-step Phase)

    • AI 每想做一个动作(比如查库、发邮件),必须先向“塔台”汇报。
    • 塔台根据它之前的所有行为,快速算出风险分。
    • 如果分数太高,塔台直接按“暂停键”或“终止键”。
    • 比喻:飞行员每做一个机动动作,塔台就根据之前的飞行轨迹判断是否安全。

4. 为什么要这么做?(应对欧盟 AI 法案)

文章特别提到了欧盟的《AI 法案》(EU AI Act),该法案要求高风险 AI 系统必须有人类监督、可追溯、且能管理风险。

  • 可追溯性:这个系统会记录每一步的“黑匣子”数据:AI 想做什么、塔台怎么算的、最后怎么决定的。这就像飞机的飞行记录仪,出了事能查清楚是谁的错。
  • 人类监督:当 AI 要做高风险动作(比如把数据发给外部)时,系统会自动暂停,让人类主管介入。这满足了法律要求的“人类在环”(Human-in-the-loop)。
  • 风险管理:公司可以设定一个“风险预算”(比如:每天允许有 0.1% 的任务因为风险被拦截)。系统会自动平衡“让 AI 多干活”和“少出事故”之间的关系。

5. 还有什么没解决?(未来的挑战)

虽然这个框架很完美,但作者也诚实地指出了几个“硬骨头”:

  1. 校准难题:系统算出的“违规概率 80%",是真的有 80% 会出事吗?还是只是觉得“看起来很危险”?我们需要大量真实数据来校准这个分数,目前数据还不够。
  2. 狡猾的 AI:如果 AI 变聪明了,它会不会故意走一些“看起来每一步都合规,但组合起来就是违规”的路线来绕过监管?(比如“走迷宫”策略)。目前的系统主要防“意外”,防“蓄意钻空子”还需要更高级的预测能力。
  3. 代码执行:如果 AI 自己写了一段代码来绕过监管,而这段代码是在它自己的沙盒里运行的,监管系统可能看不见。这需要更底层的硬件或系统支持。
  4. 团队协作:如果两个 AI 互相配合(一个查数据,一个发邮件),监管系统怎么把两个 AI 的“账”算在一起?

总结

这篇文章的核心观点是:治理 AI 智能体,不能靠“事前画好路线图”,也不能靠“简单的禁止令”,而必须建立一个“实时交通指挥中心”。

这个中心能看着 AI 的整个行进历史,在它迈出下一步之前,瞬间判断这个动作结合历史是否安全。如果不安全,就立刻叫停或让人类介入。只有这样,才能在让 AI 发挥巨大生产力的同时,确保它不会把公司带进沟里。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →