Go-Browse: Training Web Agents with Structured Exploration

本文提出了名为 Go-Browse 的方法,通过将数据收集构建为图搜索问题来实现对网络环境的结构化探索,从而在 WebArena 基准上收集了大规模成功轨迹数据,使 7B 参数语言模型的性能超越了 GPT-4o mini 及当前同类小参数模型的最优水平。

Apurva Gandhi, Graham Neubig

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Go-Browse 的新方法,旨在教人工智能(AI)如何像人类一样熟练地“上网”和完成各种任务。

为了让你更容易理解,我们可以把 AI 比作一个刚入职的实习生,把互联网比作一座巨大的、没有地图的迷宫城市

1. 核心问题:实习生迷路了

目前的 AI 模型(比如 GPT-4o mini)虽然很聪明,能写诗、写代码,但一旦让它去操作网页(比如“帮我在亚马逊上买一双红色的跑鞋并加入购物车”),它经常会在迷宫里迷路。

  • 现状:它不知道先点哪里,不知道哪些页面是死胡同,甚至不知道如何从一个页面跳转到另一个页面。
  • 原因:它就像是一个只读过旅游指南(教科书),但从未真正去过那个城市的人。它知道“巴黎有埃菲尔铁塔”,但不知道到了巴黎后,具体该坐哪路车、走哪条街才能到达。

2. 解决方案:Go-Browse(“边逛边学”策略)

以前的方法有两种:

  • 方法 A(瞎逛法):让 AI 在网页上随机乱点,希望能碰巧发现什么。这就像让实习生在迷宫里乱跑,效率极低,而且经常重复走同一条路。
  • 方法 B(死记硬背法):让人类先写好任务清单(比如“去 A 页面买鞋”),然后让 AI 去试。但这有个问题:如果 AI 连 A 页面都找不到,任务就失败了。

Go-Browse 的做法是“结构化探索”,我们可以把它想象成“绘制地图 + 反复练习”:

第一步:绘制“探险地图” (Graph Search)

Go-Browse 不是一次次从头开始乱跑,而是像探险家一样,每发现一个新路口(新网页),就在地图上标记下来。

  • 外循环(全局探索):它维护一个“待探索清单”。每完成一个任务,它不会重置回起点,而是直接传送到刚才发现的那个新路口,继续探索。
    • 比喻:就像玩《塞尔达传说》或《原神》,你发现了一个新传送点,下次你直接传送到那里开始新任务,而不是每次都从新手村跑过去。这大大节省了时间。

第二步:提出任务并验证 (Task Proposal & Checking)

在每一个新发现的网页上,Go-Browse 会问 AI:“在这个页面上,用户可能想做什么?”

  • 导航任务:比如“去‘购物车’页面”。
  • 本地任务:比如“把这件商品加入购物车”。
  • 可行性检查:在真的让 AI 去跑之前,先用一个更聪明的 AI(裁判)快速试跑一下。如果连裁判都跑不通,那就把这个任务扔掉,避免浪费资源。

第三步:两种练习模式 (Prefixed vs. Unprefixed)

这是 Go-Browse 最巧妙的地方,它把“找路”和“做事”分开了:

  1. 带前缀练习 (Prefixed):直接把 AI 传送到任务所在的页面(比如直接传送到“购物车”页面),让它只练习“点击购买”这个动作。
    • 比喻:教练直接把学生带到球门前,让他练习射门。这能让学生快速学会“射门”这个动作,建立信心。
  2. 无前缀练习 (Unprefixed):让 AI 从首页出发,自己找路去“购物车”,然后再购买。
    • 比喻:让学生从家里出发,自己找路去球门,再射门。这能锻炼学生的“导航能力”和长距离规划能力。

通过这种“先练射门,再练找路”的组合拳,Go-Browse 收集到了大量高质量的数据。

3. 成果:实习生变成了专家

研究人员用这种方法收集了 1 万多条成功的“上网”数据,然后训练了一个中等大小的 AI 模型(7B 参数,约 70 亿个参数)。

结果非常惊人:

  • 这个经过训练的 AI,在著名的“网页迷宫测试”(WebArena)中,成功率达到了 21.7%
  • 它打败了目前非常强大的 GPT-4o mini(后者只有 19.3%)。
  • 它甚至超过了之前所有同类小模型的记录。

4. 总结与启示

Go-Browse 的核心思想是: 不要指望 AI 一开始就什么都会。通过系统性地探索利用已知的路径(重置到已发现的页面)以及分步训练(先练局部操作,再练全局导航),我们可以用较低的成本,训练出非常擅长上网的 AI 助手。

这就好比教孩子认路:

  • 旧方法:把孩子扔进城市,让他自己乱撞,或者只给他看地图。
  • Go-Browse 方法:先带孩子去几个关键路口(建立地图),在每个路口让他练习具体的动作(买东西、查信息),等他熟练了,再让他尝试从起点走到终点。

这项研究不仅让 AI 更聪明,还证明了**“好的训练数据”**比单纯堆砌更大的模型参数更重要。