Enhancing Web Agents with a Hierarchical Memory Tree

该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题,提出了一种名为分层记忆树(HMT)的框架,通过将记忆解耦为意图、阶段和行动三个层级,实现了逻辑规划与动作执行的分离,从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。

Yunteng Tan, Zhi Gao, Xinxiao Wu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为**HMT(分层记忆树)**的新方法,旨在解决人工智能(AI)代理在浏览不同网站时“水土不服”的问题。

为了让你轻松理解,我们可以把AI 网页代理想象成一个刚入职的超级实习生,而HMT就是给这位实习生配备的一套**“智能工作手册”**。

1. 核心痛点:为什么以前的 AI 容易“翻车”?

想象一下,你让这位实习生去**“预订一张去纽约的机票”**。

  • 以前的做法(扁平记忆): 你给实习生看一本**“死记硬背的笔记”**。笔记里写着:“第一步,点击 ID 为 btn-123 的按钮;第二步,在 ID 为 input-456 的框里打字。”
  • 问题所在: 当实习生换到另一个网站(比如从携程换到飞猪)时,虽然任务还是“订机票”,但新网站根本没有 btn-123 这个按钮!
  • 后果: 实习生会对着空气点击,或者在错误的地方打字。这就是论文里说的**“意图与执行的纠缠”**:它把“想做什么(意图)”和“具体怎么点(执行细节)”死死绑在了一起。一旦环境变了,具体的“点法”就失效了,导致整个任务失败。

2. 解决方案:HMT(分层记忆树)

为了解决这个问题,作者给实习生换了一套**“三层结构的工作手册”(HMT)。这套手册不再记录死板的按钮 ID,而是记录了逻辑和规律**。

第一层:意图层(Intent Level)—— “我们要做什么?”

  • 比喻: 就像把“我想去纽约”、“帮我买张去 NY 的票”、“我要飞纽约”这些不同的说法,统一翻译成标准指令:“预订航班”
  • 作用: 不管用户怎么说话,AI 都能先搞清楚核心目标是什么,不受具体措辞干扰。

第二层:阶段层(Stage Level)—— “我们现在走到哪一步了?”

  • 比喻: 把复杂的任务拆解成几个**“里程碑”**。比如:
    • 阶段 A:搜索航班(前提:搜索框可见;结果:列表出现)。
    • 阶段 B:选择航班(前提:列表可见;结果:详情页打开)。
  • 作用: 这是最关键的一步!AI 会先观察当前网页:“哦,现在屏幕上显示的是搜索结果列表,所以我应该处于‘选择航班’阶段,而不是‘搜索’阶段。”
  • 好处: 即使换了网站,只要看到“列表”,AI 就知道该执行哪一步逻辑,不会在还没搜索时就急着去结账(避免了流程错乱)。

第三层:动作层(Action Level)—— “具体该怎么点?”

  • 比喻: 这里不再写“点击 ID 123",而是写**“点击那个写着‘搜索’的按钮,它通常在表单的右下角”**。
  • 作用: 它描述的是按钮的特征(角色、文字、位置),而不是它的身份证号(ID)。
  • 好处: 无论新网站的按钮 ID 是什么,只要它长得像“搜索按钮”,AI 就能找到它。这就像你教人找“红色的苹果”,而不是教人找“编号为 88 的苹果”。

3. 工作流程:聪明的“规划师”和“执行者”

这套系统把 AI 分成了两个角色,像是一个**“指挥官(Planner)”和一个“士兵(Actor)”**:

  1. 指挥官(Planner): 它不看具体的按钮,只看**“阶段”**。它会检查:“现在的网页状态符合‘选择航班’这个阶段的特征吗?”如果符合,它才下令:“好,执行下一步!”如果不符合,它就不会乱指挥。
  2. 士兵(Actor): 它拿到指挥官的指令(比如“找搜索按钮”),然后去当前的网页上**“对号入座”**。它不看 ID,而是看特征:“哪个按钮写着‘搜索’?哦,找到了!”

4. 实验结果:为什么这很重要?

作者在两个著名的测试场(Mind2Web 和 WebArena)上做了实验:

  • 旧方法: 在熟悉的网站上表现尚可,但一换到新网站,成功率就暴跌,因为具体的按钮 ID 都变了。
  • HMT 方法: 在跨网站、跨领域的任务中表现大幅领先。因为它学会了“举一反三”,掌握了通用的逻辑,而不是死记硬背细节

总结

这就好比教人开车:

  • 旧方法是教人:“在 A 路遇到红灯,踩刹车;在 B 路遇到红灯,踩刹车。”(换个路就不会了)。
  • HMT 方法是教人:“看到红灯(状态),就要停车(逻辑);看到绿灯(状态),就可以走(逻辑)。”(无论在哪条路,无论红绿灯长什么样,都能应对)。

HMT 的核心贡献就是让 AI 从“死记硬背的机器”变成了“懂得逻辑、能灵活应变的智能助手”,让它真正具备了在未知的互联网世界里自由探索的能力。