Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong Tu

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 智能体(Agent)变得更聪明、更安全、更省钱的新方法,叫做**“遍历即策略”(Traversal-as-Policy)**。

为了让你轻松理解,我们可以把现在的 AI 智能体比作一个**“刚拿到驾照的新手司机”,而这篇论文提出的方法,就是给这个司机配了一本“经过实战验证的、带安全锁的驾驶手册”**。

以下是用通俗语言和比喻对这篇论文的解读:

1. 现在的 AI 有什么问题?

想象一下,你让一个 AI 去修一个复杂的软件漏洞,或者在网上买张票。

  • 现状: 现在的 AI 就像那个新手司机,它脑子里没有明确的“操作手册”。它每走一步,都要靠“灵光一闪”(大模型的权重)去猜下一步该干嘛。
  • 问题:
    • 容易迷路(长程失控): 任务稍微长一点,它就容易忘事,或者走偏,最后不知道自己在哪了。
    • 容易闯祸(安全隐患): 它可能会不小心删掉重要文件,或者泄露隐私,因为它没有经过严格的“安全培训”。
    • 黑盒操作: 我们不知道它为什么这么做,出了错很难检查,也很难保证它下次不犯同样的错。

2. 这篇论文的核心创意:把“经验”变成“地图”

作者们想:“既然 AI 在沙盒环境里跑过很多次,有些成功了,有些失败了,我们为什么不把这些历史数据整理成一本**‘驾驶手册’**呢?”

他们发明了一个叫 GBT(带门的行为树) 的东西。你可以把它想象成一张**“超级导航地图”**。

第一步:离线蒸馏(整理地图)

  • 做法: 他们让 AI 在安全的“沙盒”(像是一个封闭的练习场)里跑了很多任务,记录了所有的操作日志。
  • 提炼: 他们把这些日志里的零散操作(比如“打开文件”、“修改代码”、“运行测试”)打包成一个个**“宏动作”**(Macro)。这就好比把“踩油门、打方向盘、看后视镜”打包成一个叫“安全变道”的熟练动作。
  • 结果: 把这些熟练动作串起来,就形成了一棵行为树。这棵树就是 AI 的“策略地图”。

第二步:安装“安全门”(Gate)

这是最精彩的部分。

  • 做法: 他们从那些失败或危险的日志里,找出 AI 是怎么闯祸的。比如,发现 AI 总是在“试图删除系统文件”时出错。
  • 安装门锁: 他们在地图的关键节点上安装了**“自动安全门”**。
    • 如果 AI 想执行一个危险动作(比如删文件),系统会先检查一个**“结构化清单”**(比如:这是系统文件吗?有备份吗?)。
    • 关键点: 这个检查是死板的、基于代码的,不是靠 AI“猜”的。不管 AI 怎么忽悠(提示词攻击),只要清单对不上,门就打不开。
    • 只进不退原则: 一旦某个情况被判定为“危险”并关上了门,以后永远关着,绝不开门。这保证了安全只会越来越严,不会变松。

3. AI 怎么使用这本“手册”?(在线执行)

当 AI 接到一个新任务时:

  1. 查地图: 它不再瞎猜,而是先看任务属于哪一类(比如“修代码”),然后直接查地图上的对应路线。
  2. 按图索骥: 它沿着地图上的“宏动作”一步步走。
    • 如果 AI 想走的路在地图上,且安全门开了,它就执行。
    • 如果 AI 想走的路不在地图上,或者安全门没开,它就停下来,或者请求“安全探索”(此时它承认自己不知道,不乱跑)。
  3. 遇到死胡同怎么办?(恢复机制): 如果 AI 卡住了(比如死循环),系统会自动计算一条**“风险最低的最短路径”**回到成功终点。就像导航发现前方堵车,自动规划了一条不绕远且安全的备用路线。
  4. 记笔记(脊柱记忆): 它不需要把刚才说的所有废话(对话记录)都记在脑子里,只需要记住“我刚才走过了哪些关键路口”(脊柱)。这大大节省了内存和算力。

4. 这种方法好在哪里?(实验结果)

论文在多个测试(如修软件漏洞、网页操作、逻辑推理)中证明了这套方法:

  • 成功率飙升: 在修软件漏洞的测试中,成功率从 34.6% 提升到了 73.6%
  • 几乎零事故: 违规操作(如乱删文件)从 2.8% 降到了 0.2%,甚至接近零。
  • 更省钱: 因为不再瞎猜,不需要反复对话,消耗的 Token(计算量)减少了一半以上。
  • 小模型也能跑: 最神奇的是,把这本“地图”给一个小模型(比如 80 亿参数的模型)用,它的表现甚至能超过那些没有地图的大模型。这说明:策略(地图)比模型本身(大脑)更重要。

5. 总结:一个形象的比喻

  • 以前的 AI: 像一个天才但鲁莽的探险家。他很有才华,能解决难题,但经常迷路,偶尔还会踩到地雷,而且没人知道他的路线,很难教他。
  • 现在的 AI(Traversal-as-Policy): 像一个拿着精密地图和安检门的资深向导
    • 地图(GBT): 告诉他每一步该干什么,基于过去成功者的经验。
    • 安检门(Gates): 在他伸手去拿危险物品前,先检查清单,绝对禁止违规。
    • 恢复机制: 一旦走错,立刻把他拉回安全路线。
    • 结果: 这个向导不仅更聪明(成功率高),而且绝对安全(不闯祸),甚至可以用更便宜的向导(小模型)来担任,因为“地图”才是核心。

一句话总结:
这篇论文把 AI 从“靠直觉瞎猜”变成了“靠经验地图导航 + 严格安检”,让 AI 变得更靠谱、更安全、更便宜,而且这个“靠谱”是可以被检查、被验证的,不再是黑盒。