Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 智能体（Agent）变得更聪明、更安全、更省钱的新方法，叫做**“遍历即策略”（Traversal-as-Policy）**。

为了让你轻松理解，我们可以把现在的 AI 智能体比作一个**“刚拿到驾照的新手司机”，而这篇论文提出的方法，就是给这个司机配了一本“经过实战验证的、带安全锁的驾驶手册”**。

以下是用通俗语言和比喻对这篇论文的解读：

1. 现在的 AI 有什么问题？

想象一下，你让一个 AI 去修一个复杂的软件漏洞，或者在网上买张票。

现状： 现在的 AI 就像那个新手司机，它脑子里没有明确的“操作手册”。它每走一步，都要靠“灵光一闪”（大模型的权重）去猜下一步该干嘛。
问题：
- 容易迷路（长程失控）： 任务稍微长一点，它就容易忘事，或者走偏，最后不知道自己在哪了。
- 容易闯祸（安全隐患）： 它可能会不小心删掉重要文件，或者泄露隐私，因为它没有经过严格的“安全培训”。
- 黑盒操作： 我们不知道它为什么这么做，出了错很难检查，也很难保证它下次不犯同样的错。

2. 这篇论文的核心创意：把“经验”变成“地图”

作者们想：“既然 AI 在沙盒环境里跑过很多次，有些成功了，有些失败了，我们为什么不把这些历史数据整理成一本**‘驾驶手册’**呢？”

他们发明了一个叫 GBT（带门的行为树） 的东西。你可以把它想象成一张**“超级导航地图”**。

第一步：离线蒸馏（整理地图）

做法： 他们让 AI 在安全的“沙盒”（像是一个封闭的练习场）里跑了很多任务，记录了所有的操作日志。
提炼： 他们把这些日志里的零散操作（比如“打开文件”、“修改代码”、“运行测试”）打包成一个个**“宏动作”**（Macro）。这就好比把“踩油门、打方向盘、看后视镜”打包成一个叫“安全变道”的熟练动作。
结果： 把这些熟练动作串起来，就形成了一棵行为树。这棵树就是 AI 的“策略地图”。

第二步：安装“安全门”（Gate）

这是最精彩的部分。

做法： 他们从那些失败或危险的日志里，找出 AI 是怎么闯祸的。比如，发现 AI 总是在“试图删除系统文件”时出错。
安装门锁： 他们在地图的关键节点上安装了**“自动安全门”**。
- 如果 AI 想执行一个危险动作（比如删文件），系统会先检查一个**“结构化清单”**（比如：这是系统文件吗？有备份吗？）。
- 关键点： 这个检查是死板的、基于代码的，不是靠 AI“猜”的。不管 AI 怎么忽悠（提示词攻击），只要清单对不上，门就打不开。
- 只进不退原则： 一旦某个情况被判定为“危险”并关上了门，以后永远关着，绝不开门。这保证了安全只会越来越严，不会变松。

3. AI 怎么使用这本“手册”？（在线执行）

当 AI 接到一个新任务时：

查地图： 它不再瞎猜，而是先看任务属于哪一类（比如“修代码”），然后直接查地图上的对应路线。
按图索骥： 它沿着地图上的“宏动作”一步步走。
- 如果 AI 想走的路在地图上，且安全门开了，它就执行。
- 如果 AI 想走的路不在地图上，或者安全门没开，它就停下来，或者请求“安全探索”（此时它承认自己不知道，不乱跑）。
遇到死胡同怎么办？（恢复机制）： 如果 AI 卡住了（比如死循环），系统会自动计算一条**“风险最低的最短路径”**回到成功终点。就像导航发现前方堵车，自动规划了一条不绕远且安全的备用路线。
记笔记（脊柱记忆）： 它不需要把刚才说的所有废话（对话记录）都记在脑子里，只需要记住“我刚才走过了哪些关键路口”（脊柱）。这大大节省了内存和算力。

4. 这种方法好在哪里？（实验结果）

论文在多个测试（如修软件漏洞、网页操作、逻辑推理）中证明了这套方法：

成功率飙升： 在修软件漏洞的测试中，成功率从 34.6% 提升到了 73.6%。
几乎零事故： 违规操作（如乱删文件）从 2.8% 降到了 0.2%，甚至接近零。
更省钱： 因为不再瞎猜，不需要反复对话，消耗的 Token（计算量）减少了一半以上。
小模型也能跑： 最神奇的是，把这本“地图”给一个小模型（比如 80 亿参数的模型）用，它的表现甚至能超过那些没有地图的大模型。这说明：策略（地图）比模型本身（大脑）更重要。

5. 总结：一个形象的比喻

以前的 AI： 像一个天才但鲁莽的探险家。他很有才华，能解决难题，但经常迷路，偶尔还会踩到地雷，而且没人知道他的路线，很难教他。
现在的 AI（Traversal-as-Policy）： 像一个拿着精密地图和安检门的资深向导。
- 地图（GBT）： 告诉他每一步该干什么，基于过去成功者的经验。
- 安检门（Gates）： 在他伸手去拿危险物品前，先检查清单，绝对禁止违规。
- 恢复机制： 一旦走错，立刻把他拉回安全路线。
- 结果： 这个向导不仅更聪明（成功率高），而且绝对安全（不闯祸），甚至可以用更便宜的向导（小模型）来担任，因为“地图”才是核心。

一句话总结：
这篇论文把 AI 从“靠直觉瞎猜”变成了“靠经验地图导航 + 严格安检”，让 AI 变得更靠谱、更安全、更便宜，而且这个“靠谱”是可以被检查、被验证的，不再是黑盒。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“遍历即策略”（Traversal-as-Policy）**的新范式，旨在解决自主大语言模型（LLM）代理在长程任务中策略隐式化、难以调试、安全性滞后以及成本高昂的问题。

以下是该论文的详细技术总结：

1. 核心问题 (Problem)

当前的自主 LLM 代理面临以下主要挑战：

策略隐式化 (Implicit Policy)： 代理的长期行为策略隐含在模型权重和动态生成的对话记录（Transcripts）中，缺乏显式、可检查的控制对象。
安全性滞后 (Retrofit Safety)： 安全措施通常是事后添加的（如运行时验证器或“守护”代理），依赖于人类指定的规则或提示词，难以覆盖长尾的、上下文依赖的失败模式。
长程漂移与高成本： 随着任务步骤增加，基于自由文本生成的代理容易发生“漂移”（Drift），导致计划失效，且需要消耗大量 Token 来维持上下文。
缺乏可验证性： 现有的方法难以进行形式化验证、调试或回归测试，因为策略是动态生成的而非预定义的。

2. 方法论：遍历即策略 (Methodology: Traversal-as-Policy)

作者提出将执行日志蒸馏为一个带门控的行为树（Gated Behavior Tree, GBT），并将树的遍历（而非无约束的生成）作为代理的控制策略。

A. 离线蒸馏 (Offline Distillation)

该过程是**无需训练（Training-free）**的，不更新模型权重：

日志到宏 (Logs to Macros)： 从沙盒环境（OpenHands）的执行日志中提取“行为路径”。将连续的原始工具调用（Primitive Calls）聚合成状态条件的动作宏（Action Macros）。每个宏代表一个连贯的子目标（如“检查失败的测试并打开相关文件”）。
合并与检查 (Merge-Check)： 将来自成功轨迹的宏路径合并到一棵单一的行为树中。采用基于签名的合并纪律，防止语义别名（Semantic Aliasing），特别是在涉及安全的关键节点。
不安全痕迹处理 (Unsafe Traces)： 对于包含违规行为的轨迹，通过沙盒回放将其缩小为最小不安全窗口。从中提取结构化的上下文（Structured Context），用于合成门控（Gates）。

B. 带门控的行为树 (GBT) 结构

GBT 是一个可执行的策略工件，包含：

节点 (Nodes)： 代表状态条件的动作宏。
门控 (Gates)： 在宏执行前进行的确定性检查。
- 全局门控 (Global Guardrails)： 针对高风险原语（如写文件、进程启动、网络发送）的预执行检查。
- 节点局部门控 (Node-local Gates)： 针对特定宏上下文的额外约束。
- 输入： 仅基于结构化上下文（工具类型、参数、资源 ID、有界历史），绝不依赖LLM 生成的自由文本摘要，从而防止提示词注入绕过安全。
单调性原则 (Experience-Grounded Monotonicity)： 一旦某个结构化上下文被标记为不安全并被门控拒绝，它在未来的所有更新中必须保持被拒绝状态。这确保了安全性的单调增长，防止静默回归。

C. 在线部署 (Online Deployment)

GBT 遍历器 (GBT-Traverser)： 一个轻量级控制器，包裹基础 LLM。
- 路由与覆盖 (Routing & Coverage)： 将任务路由到特定的任务家族子树。如果匹配置信度低，则** abstain（放弃）**遍历控制，仅保留底层安全门控。
- 规划 - 匹配 - 推进 (Plan-Match-Advance)： 基础 LLM 提出意图，遍历器将其与子节点宏进行语义匹配。
- 单宏执行： LLM 每次只执行一个被选中的宏，并在执行每个高风险原语前通过门控检查。
- 风险感知恢复 (Risk-Aware Recovery)： 当代理停滞或反复被门控阻挡时，遍历器使用 Dijkstra 算法在可行子树中寻找风险感知的最短路径到达成功叶子节点。
- 脊记忆 (Spine Memory)： 用访问过的宏路径（脊）替代冗长的对话记录，作为长期状态，大幅减少上下文长度和漂移。

D. 自我进化 (Self-Evolution, GBT-SE)

在保持安全不变量的前提下，利用失败案例驱动树的局部修复。
通过类比成功的叶子节点，为失败路径中的分歧节点引入新的子节点或更新选择统计。
严格约束： 禁止删除或放松任何门控，所有修改必须通过回归测试（确保历史成功不降级，历史不安全案例仍被阻挡）。

3. 主要贡献 (Key Contributions)

策略外部化 (Policy Externalization)： 首次将长程代理控制显式化为一个可执行、可检查的日志蒸馏工件（GBT），独立于模型权重。
基于经验的确定性安全 (Experience-Grounded Deterministic Safety)： 将不安全轨迹编译为预执行门控，基于结构化上下文而非文本摘要，并通过单调性原则防止安全退化。
统一证据： 在 15+ 个 OpenHands 基准测试中，证明了该方法能同时提高成功率、将违规率降至接近零、降低推理成本，并允许小模型通过执行外部策略获得高性能。

4. 实验结果 (Results)

在 OpenHands 沙盒环境下，基于 SWE-bench Verified、WebArena 和 GPQA 等基准测试的结果显示：

SWE-bench Verified (500 个任务)：
- 成功率从基线的 34.6% 提升至 73.6% (GBT-SE)。
- 违规率从 2.8% 降至 0.2%，不安全成功（Unsafe Success）降至 0.0%。
- Token/字符使用量减少了约 40% (208k/820k $\to$ 126k/490k)。
WebArena (812 个任务)：
- 成功率从 19.7% 提升至 66.9%。
- 违规率从 3.4% 降至 0.2%。
小模型赋能 (Executor Decoupling)：
- 使用相同的 GBT 策略，8B 参数量的模型（如 Qwen3-VL-8B-Thinking）在 SWE-bench 上的成功率从 14.0% 跃升至 58.8%，证明了策略工件与推理能力的解耦。
安全性： 在 Agent-SafetyBench 等安全基准上，违规率显著降低，同时保持了任务效用。

5. 意义与影响 (Significance)

从“生成”到“控制”的转变： 将代理从不可预测的生成器转变为受控的遍历器，使行为可预测、可调试。
可验证的安全： 安全不再是事后的“补丁”，而是基于结构化上下文的预执行契约，能有效抵御提示词注入和摘要操纵。
成本与效率： 通过脊记忆和宏级控制，显著减少了 Token 消耗和长程漂移，降低了部署成本。
小模型可行性： 证明了通过外部策略工件，较小的模型也能执行复杂的长程任务，降低了高性能代理的部署门槛。
持续进化： 提供了一种在严格安全不变量下持续改进代理策略的机制，避免了传统 RL 或微调带来的安全回退风险。

总结： 该论文提出了一种将执行日志转化为可验证、可执行策略（GBT）的框架，通过“遍历即策略”的机制，在大幅提升代理任务成功率的同时，实现了近乎零的安全违规，并为安全、高效、可验证的自主代理开发提供了新的范式。