Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

该论文提出了一种包含高层规划、低层执行和重规划三个层级的分层框架,用于分析基于大语言模型的网页智能体在长程任务中的失败原因,研究发现虽然结构化规划语言能生成更高效的策略,但低层执行中的感知 grounding 不足仍是导致其无法达到人类可靠性的主要瓶颈。

Mohamed Aghzal, Gregory J. Stein, Ziyu Yao

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给AI 网页助手(LLM Web Agents)做了一次深度的“体检”。

想象一下,你雇佣了一个非常聪明的AI 实习生,让他帮你去网上完成一些复杂的任务,比如:“帮我找一下离我最近的 GameStop 门店,把它设为我的首选店,并查看它的营业时间。”

虽然现在的 AI 很聪明,能写诗、能聊天,但让它去操作真实的网站时,它经常“翻车”。以前的研究只看结果:任务做成了吗?如果没做成,就打个叉。但这就像只告诉厨师“菜没做好”,却不告诉他是因为盐放多了火候没掌握,还是切菜切错了

这篇论文的作者们(来自乔治梅森大学)决定换个角度,用**“分层规划”**的视角来拆解 AI 的失败原因。他们把 AI 做任务的过程分成了三个层级,就像盖房子一样:

1. 三层架构:盖房子的三个步骤

作者把 AI 做任务的过程比作盖房子:

  • 第一层:高层规划(建筑师)

    • 任务:AI 需要先把大任务拆解成几个小步骤。比如:“先搜索门店 -> 再选最近的 -> 最后设为首选”。
    • 发现:如果让 AI 用自然语言(像人说话一样)写计划,它容易啰嗦、想太多,或者把简单的步骤拆得太碎。但如果让 AI 用PDDL(一种像数学公式一样的结构化语言)来写计划,它的思路就清晰多了,像是一个严谨的建筑师,步骤简练且目标明确。
    • 比喻:自然语言计划像是一个话痨导游,虽然热情但容易带偏;PDDL 计划像是一个冷静的导航仪,只给关键指令。
  • 第二层:低层执行(施工队)

    • 任务:把“搜索门店”这种抽象指令,变成具体的鼠标点击、输入框打字等动作。
    • 发现:这是最大的瓶颈!哪怕“建筑师”(高层规划)画出了完美的图纸,“施工队”(低层执行)也经常出错。它们会点错按钮、在错误的地方搜索,或者对着一个不存在的链接发呆。
    • 比喻:就像建筑师画好了图,但施工队看不懂图纸,或者手太笨,拿着锤子去敲玻璃,结果把窗户砸碎了。论文指出,目前的 AI 最缺的不是“思考能力”,而是“感知和动手能力”(即如何准确理解网页上的元素)。
  • 第三层:重新规划(纠错机制)

    • 任务:当发现路走不通(比如页面加载失败,或者搜索结果不对)时,AI 能不能意识到“我走错了”,然后换个思路?
    • 发现:只要给 AI 一次**“重新规划”**的机会,它的成功率就会大幅提升。哪怕之前的计划很烂,只要它能根据刚才的失败经验调整一下,往往就能把任务做成。
    • 比喻:就像你开车迷路了,如果导航能立刻说“前面路堵了,我们换个路线”,你就不会一直堵死在路上。

2. 核心结论:为什么 AI 还是不够聪明?

通过对比三种不同的 AI 模型(GPT-5-nano, Claude, Gemini),作者得出了几个有趣的结论:

  1. 结构化语言(PDDL)是神器:让 AI 用像代码一样的结构化语言去思考,比让它像人一样说话更有效。这能让它的计划更精准,减少废话。
  2. “手”比“脑”更笨:AI 的“大脑”(规划能力)其实挺强的,能想出不错的步骤。但它的“手”(执行能力)太笨拙了。它经常**“幻觉”(以为看到了一个按钮其实没有),或者“死循环”**(反复点击同一个没用的按钮)。
  3. 试错很有用:不要指望 AI 一次就完美。给它一次“重新规划”的机会,让它从错误中学习,效果会好很多。

3. 给未来的建议:如何造出更好的 AI 助手?

作者最后给未来的 AI 设计者提了四点建议,用大白话翻译就是:

  • 把“想”和“做”分开:不要让一个 AI 既当建筑师又当泥瓦匠。专门训练一个模块负责想步骤,另一个模块专门负责精准点击。
  • 教 AI 更好地“看”网页:现在的 AI 经常看走眼(把广告当成按钮)。需要让它更清楚地理解网页的结构,而不是瞎猜。
  • 允许 AI 说“我不知道”:现在的 AI 被强迫每一步都要点东西,哪怕它不确定。应该允许它在不确定时停下来问人,或者主动说“我卡住了,需要重新规划”,而不是硬着头皮乱点。
  • 别只看结果,要看过程:以后评价 AI,不能只看它最后有没有完成任务,要看它是在哪一步错的。是计划错了?还是点错了?这样才能对症下药。

总结

这篇论文告诉我们:现在的 AI 网页助手之所以经常失败,不是因为它们不够聪明(想不出好办法),而是因为它们不够“脚踏实地”(执行动作时容易出错)。

要想让 AI 像人类一样可靠地在网上办事,我们不仅要训练它们更聪明的“大脑”,更要给它们装上更稳的“手”和更敏锐的“眼睛”,并且允许它们在迷路时灵活地重新规划路线

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →