AI Planning Framework for LLM-Based Web Agents

该论文提出了一种将 Web 任务形式化为序列决策过程的 AI 规划框架,通过建立代理架构与传统搜索范式的映射关系、引入新的评估指标及 794 条人工标注轨迹数据集,揭示了不同规划策略(如逐步执行与全量预规划)在任务成功率与元素准确性上的互补优势,从而为根据具体应用约束选择代理架构提供了理论依据。

Orit Shahnovsky, Rotem Dror

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人工智能(AI)如何像人一样上网办事这件事,做了一次深度的“体检”和“重新分类”。

为了让你更容易理解,我们可以把AI 上网想象成让一个刚拿到驾照的新手司机去城市里送快递

1. 核心问题:AI 是个“黑盒子”

以前的 AI 司机(大语言模型)虽然能听懂你的指令(比如“帮我买张去北京的票”),但它们怎么思考、怎么规划路线,我们完全不知道。它们就像黑盒子:你给指令,它直接给结果。如果它送错了地方,我们很难知道是因为它记错了路,还是因为它中途走神了,或者是它根本就没规划好路线。

这篇论文的作者(来自以色列海法大学)说:“不行,我们得把 AI 的‘大脑’打开看看,搞清楚它们到底是怎么‘想’的。”

2. 三大“司机”流派(AI 的规划方式)

作者把现在的 AI 上网方式,比作三种不同的驾驶策略,并给它们起了个新名字:

  • 流派一:步步为营型(Step-by-Step)—— 像“广度搜索”

    • 怎么开: 这种司机每到一个路口,只盯着眼前看。它想:“我现在在路口,左边能走吗?右边能走吗?好,我先走左边一步。”然后到了下一个路口,再重新看。
    • 比喻: 就像你在迷宫里,每走一步都停下来问:“前面有墙吗?没有?好,走一步。”
    • 现状: 这是目前最主流的 AI 上网方式(比如 WebArena 里的默认 AI)。它反应快,但容易走神,走着走着就忘了最初要去哪(这叫“上下文漂移”)。
  • 流派二:树状搜索型(Tree Search)—— 像“最佳优先搜索”

    • 怎么开: 这种司机在路口会停下来,在脑子里画出几条可能的路线,然后给每条路线打分:“走这条路去北京快,走那条路可能会堵车。”它选择分数最高的一条走。
    • 比喻: 就像下围棋,AI 会预判好几步,选胜率最高的那一步。
    • 现状: 这种 AI 比较聪明,但计算量很大,容易“想太多”。
  • 流派三:全盘规划型(Full-Plan-in-Advance)—— 像“深度搜索”(作者新造出来的)

    • 怎么开: 这种司机在出发前,先把整个路线图在脑子里画得清清楚楚:“第一步上高速,第二步下出口,第三步进小区……"一旦开始跑,它就严格按照这张地图走,除非遇到大事故,否则不轻易改道。
    • 比喻: 就像你拿着 GPS 导航,上面已经规划好了全程,你只需要按着导航走,不用每走一步都重新思考。
    • 现状: 以前没人真正做过这种 AI 上网,所以作者自己写了一个来测试。

3. 新的“考试评分表”(评估指标)

以前的考试很简单:快递送到了吗?送到了就是 100 分,没送到就是 0 分。
作者觉得这太粗糙了!如果司机送错了,但他中间走了 90% 的正确路,难道和完全乱跑的司机一样吗?

于是,作者设计了5 个新指标来给司机打分:

  1. 纠错率(Recovery Rate): 走错路后,能不能自己发现并回到正轨?(比如:走错路口了,能不能马上掉头回来?)
  2. 重复率(Repetitiveness Rate): 是不是在原地打转?(比如:反复点击同一个按钮,却什么都不发生。)
  3. 步骤成功率(Step Success Rate): 每一步是不是都符合人类专家的操作?
  4. 元素准确率(Element Accuracy):点的按钮和实际点的按钮,是不是同一个?(有时候它心里想点“提交”,结果手滑点成了“取消”。)
  5. 部分成功率(Partial Success Rate): 如果任务是要找 5 个东西,它找到了 3 个,算多少分?(以前是 0 分,现在可以算 60 分。)

4. 实验结果:谁更厉害?

作者用这 5 个新指标,让“步步为营型”和“全盘规划型”两个 AI 在 800 多个任务里 PK。

  • 步步为营型(WebArena 原版):

    • 优点: 更像人类。它走的路径和人类专家最像,走错了容易改回来。
    • 缺点: 容易走神,有时候会重复做无用功。
    • 总得分: 任务完成率约 38%
  • 全盘规划型(作者新做的):

    • 优点: 技术很稳。它很少点错按钮(元素准确率高),也很少原地打转。它像是一个严格执行命令的机器人。
    • 缺点: 太死板。一旦计划一开始就错了,或者路上有个意外(比如网页加载慢),它就很难灵活调整,容易卡死。
    • 总得分: 任务完成率约 36%(略低)。

5. 结论:没有最好的,只有最合适的

这篇论文告诉我们,没有一种 AI 是万能的

  • 什么时候用“步步为营”?
    当环境变化快、不可预测的时候。比如:

    • 社交媒体(Reddit)上刷帖子,因为每个人的回复都不一样,你没法提前规划。
    • 云管理后台,因为系统状态随时在变,你得盯着屏幕一步步确认。
    • 比喻: 就像在拥挤的早高峰开车,你必须随时观察周围,灵活变道。
  • 什么时候用“全盘规划”?
    当环境结构固定、逻辑严密的时候。比如:

    • 电商购物(淘宝/亚马逊):商品页面长得都一样,流程都是“搜索 - 加购 - 结账”。
    • 企业系统(SAP/Oracle):流程是死板的,必须按顺序点。
    • 比喻: 就像在高速公路上开,路况很好,你可以提前定好导航,一路畅通无阻。

总结

这篇论文就像给 AI 界立了一块路标

  1. 它告诉我们 AI 上网其实就是在做规划,我们可以用老派的数学方法(搜索算法)来理解它们。
  2. 它发明了一套更细致的尺子,不再只看结果,而是看过程。
  3. 它证明了:在复杂的互联网世界里,有时候“走一步看一步”比“想好再走”更管用;但在规则明确的系统里,“想好再走”更精准。

这就像教司机开车:在复杂的市区,你得教他灵活应变;在笔直的高速上,你得教他严格执行导航。只有选对方法,AI 才能真正帮人类干好活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →