Go-Browse: Training Web Agents with Structured Exploration

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Go-Browse 的新方法，旨在教人工智能（AI）如何像人类一样熟练地“上网”和完成各种任务。

为了让你更容易理解，我们可以把 AI 比作一个刚入职的实习生，把互联网比作一座巨大的、没有地图的迷宫城市。

1. 核心问题：实习生迷路了

目前的 AI 模型（比如 GPT-4o mini）虽然很聪明，能写诗、写代码，但一旦让它去操作网页（比如“帮我在亚马逊上买一双红色的跑鞋并加入购物车”），它经常会在迷宫里迷路。

现状：它不知道先点哪里，不知道哪些页面是死胡同，甚至不知道如何从一个页面跳转到另一个页面。
原因：它就像是一个只读过旅游指南（教科书），但从未真正去过那个城市的人。它知道“巴黎有埃菲尔铁塔”，但不知道到了巴黎后，具体该坐哪路车、走哪条街才能到达。

2. 解决方案：Go-Browse（“边逛边学”策略）

以前的方法有两种：

方法 A（瞎逛法）：让 AI 在网页上随机乱点，希望能碰巧发现什么。这就像让实习生在迷宫里乱跑，效率极低，而且经常重复走同一条路。
方法 B（死记硬背法）：让人类先写好任务清单（比如“去 A 页面买鞋”），然后让 AI 去试。但这有个问题：如果 AI 连 A 页面都找不到，任务就失败了。

Go-Browse 的做法是“结构化探索”，我们可以把它想象成“绘制地图 + 反复练习”：

第一步：绘制“探险地图” (Graph Search)

Go-Browse 不是一次次从头开始乱跑，而是像探险家一样，每发现一个新路口（新网页），就在地图上标记下来。

外循环（全局探索）：它维护一个“待探索清单”。每完成一个任务，它不会重置回起点，而是直接传送到刚才发现的那个新路口，继续探索。
- 比喻：就像玩《塞尔达传说》或《原神》，你发现了一个新传送点，下次你直接传送到那里开始新任务，而不是每次都从新手村跑过去。这大大节省了时间。

第二步：提出任务并验证 (Task Proposal & Checking)

在每一个新发现的网页上，Go-Browse 会问 AI：“在这个页面上，用户可能想做什么？”

导航任务：比如“去‘购物车’页面”。
本地任务：比如“把这件商品加入购物车”。
可行性检查：在真的让 AI 去跑之前，先用一个更聪明的 AI（裁判）快速试跑一下。如果连裁判都跑不通，那就把这个任务扔掉，避免浪费资源。

第三步：两种练习模式 (Prefixed vs. Unprefixed)

这是 Go-Browse 最巧妙的地方，它把“找路”和“做事”分开了：

带前缀练习 (Prefixed)：直接把 AI 传送到任务所在的页面（比如直接传送到“购物车”页面），让它只练习“点击购买”这个动作。
- 比喻：教练直接把学生带到球门前，让他练习射门。这能让学生快速学会“射门”这个动作，建立信心。
无前缀练习 (Unprefixed)：让 AI 从首页出发，自己找路去“购物车”，然后再购买。
- 比喻：让学生从家里出发，自己找路去球门，再射门。这能锻炼学生的“导航能力”和长距离规划能力。

通过这种“先练射门，再练找路”的组合拳，Go-Browse 收集到了大量高质量的数据。

3. 成果：实习生变成了专家

研究人员用这种方法收集了 1 万多条成功的“上网”数据，然后训练了一个中等大小的 AI 模型（7B 参数，约 70 亿个参数）。

结果非常惊人：

这个经过训练的 AI，在著名的“网页迷宫测试”（WebArena）中，成功率达到了 21.7%。
它打败了目前非常强大的 GPT-4o mini（后者只有 19.3%）。
它甚至超过了之前所有同类小模型的记录。

4. 总结与启示

Go-Browse 的核心思想是： 不要指望 AI 一开始就什么都会。通过系统性地探索、利用已知的路径（重置到已发现的页面）以及分步训练（先练局部操作，再练全局导航），我们可以用较低的成本，训练出非常擅长上网的 AI 助手。

这就好比教孩子认路：

旧方法：把孩子扔进城市，让他自己乱撞，或者只给他看地图。
Go-Browse 方法：先带孩子去几个关键路口（建立地图），在每个路口让他练习具体的动作（买东西、查信息），等他熟练了，再让他尝试从起点走到终点。

这项研究不仅让 AI 更聪明，还证明了**“好的训练数据”**比单纯堆砌更大的模型参数更重要。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《GO-BROWSE: 通过结构化探索训练 Web 智能体》。该论文提出了一种名为 Go-Browse 的新方法，旨在解决数字智能体（Digital Agents）缺乏对运行环境理解的问题，并通过大规模结构化探索自动收集高质量的 Web 智能体数据。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心痛点：尽管大语言模型（LLM）在许多领域表现优异，但在基于图形用户界面（GUI）的 Web 智能体任务上表现不佳。例如，在 WebArena 基准测试中，人类能达到 78% 的成功率，而 GPT-4o 仅为 38%，较小的模型（如 Qwen-2.5-7B）甚至只有 8%。
现有挑战：
- 环境理解缺失：智能体往往在陌生的网站中迷失，不知道访问哪些页面才能达成目标。
- 数据收集困难：高质量的人类演示数据昂贵且难以大规模获取。
- 现有自动方法的局限：
  - 交互优先（Interaction-first）：如 NNetNav，通过无目标探索收集数据，但存在大量冗余（重复访问相同页面），且缺乏任务导向。
  - 指令优先（Instruction-first）：先提出任务再尝试解决，但通常局限于当前静态页面，难以发现深层页面，且容易提出不可行的任务。
- 根本原因：智能体缺乏对部署环境的先验理解，且现有方法未能有效将“导航（找到正确页面）”与“局部任务解决（在页面上执行操作）”解耦。

2. 方法论 (Methodology)

作者提出了 Go-Browse，一种将数据收集建模为**图搜索（Graph Search）**问题的方法。该方法通过构建一个已发现但未完全探索的网页“前沿（Frontier）”，迭代地扩展探索范围。

核心架构：双层循环结构

Go-Browse 包含一个外循环（全局覆盖）和一个内循环（局部探索）：

外循环（Outer Loop）：全局网站覆盖
- 维护一个探索前沿（Frontier），包含已发现但尚未充分探索的 URL。
- 从前沿中选择一个节点（网页）进行探索。
- 关键创新：利用“重置（Reset）”机制。新的探索 episode 不是从首页开始，而是重置到之前发现的高价值网页。这实现了信息的复用，减少了重复导航的开销，并允许智能体专注于特定页面的任务解决。
内循环（Inner Loop）：局部网页探索与任务生成
对于选定的网页，执行以下三个步骤：
- 任务提出（Task Proposing）：
  - NavExplorer：作为一个智能体，在当前页面交互，提出导航任务（前往相邻页面），以扩展图结构。
  - PageExplorer：基于当前页面内容，提出局部任务（如搜索、点击、填写表单），以挖掘页面功能。
- 可行性检查（Feasibility Checking）：
  - 使用强模型（如 Claude-3.7-Sonnet）尝试解决提出的任务。
  - 使用 VLM-as-a-judge（视觉语言模型作为裁判）验证轨迹是否成功。
  - 过滤掉不可行的任务，仅保留有成功轨迹的任务。
- 轨迹采样（Trajectory Sampling）：
  - 前缀采样（Prefixed Sampling）：从当前发现的任务页面开始执行任务。这降低了导航难度，使得较弱模型也能生成高质量数据（解耦了导航与执行）。
  - 无前缀采样（Unprefixed Sampling）：从根节点（首页）开始执行任务，以训练智能体的长程导航和探索能力。

算法流程

初始化图 $G=(V, E)$ 和前沿 $F$ 。
从 $F$ 中选取网页 $v$ 。
利用 NavExplorer 和 PageExplorer 提出导航和局部任务。
通过 FeasibilityChecker 验证任务可行性，收集成功轨迹。
若发现新 URL，将其加入 $V$ 和 $F$ 。
利用 Solvers 对可行任务进行前缀和无前缀采样，扩充数据集。
重复直到前沿为空。

3. 关键贡献 (Key Contributions)

Go-Browse 算法：提出了一种基于图搜索的结构化探索框架，有效解决了 Web 探索中的冗余和局部最优问题。
大规模高质量数据集 (GO-BROWSE-WA)：
- 在 WebArena 基准的 5 个领域（购物管理、购物、Reddit、GitLab、地图）的 100 个 URL 上收集数据。
- 包含 ~10K 条成功轨迹 和 ~17K 条失败轨迹，总计约 40K 个交互步骤。
- 数据具有高度的多样性和覆盖性，涵盖了深层页面和复杂任务。
解耦策略：通过“重置到已发现页面”的策略，将导航挑战与任务执行挑战解耦，使得弱模型也能高效生成高质量数据。
开源：公开了代码、数据集和模型。

4. 实验结果 (Results)

在 WebArena 基准测试上对基于 Qwen-2.5-7B-Instruct 微调的模型（Go-Browse-7B）进行了评估：

总体表现：
- Go-Browse-7B 取得了 21.7% 的成功率。
- 比当前的 SOTA 亚 10B 参数模型（NNetNav-7B，18.8%）高出 2.9%。
- 甚至超过了 GPT-4o-mini（19.3%），高出 2.4%。
- 比原始预训练模型 Qwen-2.5-7B（8.3%）提升了 13.4%。
分领域表现：
- 在 Shopping Admin 和 Reddit 领域表现尤为突出，分别比 NNetNav-7B 高出 11% 和 7%。
- 仅在 GitLab 领域略低于 NNetNav-7B。
泛化能力 (Online-Mind2Web)：
- 在跨域测试中，Go-Browse-7B 依然保持对 NNetNav-7B 的领先优势。
- 在与 WebArena 相似的“域内相邻（In-Domain-Adjacent）”网站上，其表现接近 GPT-4o-mini。
消融分析：
- 深度探索：Go-Browse 生成的成功轨迹往往涉及更深层的 URL（如编辑特定产品属性），而 NNetNav 倾向于停留在浅层页面。
- 前缀采样：证明了前缀采样能显著提高弱模型在深层节点上的成功率，是提升数据质量的关键。
- 效率：可行性检查模块过滤了约 29.4K 个无效步骤，显著提升了数据收集效率。

5. 意义与影响 (Significance)

突破参数规模限制：证明了通过高质量的结构化数据，小参数模型（7B）可以超越甚至超越闭源的大模型（GPT-4o-mini），为低成本部署 Web 智能体提供了新路径。
重新定义数据收集范式：从“随机探索”或“静态指令生成”转向“结构化图探索”，解决了智能体在复杂 Web 环境中迷失的问题。
可复现性与社区贡献：提供的数据集和工具链为后续 Web Agent 研究提供了坚实的基准，特别是对于研究长程导航和复杂任务分解的研究者。
未来方向：论文指出未来可扩展至更多网站类型，并探索利用失败轨迹进行强化学习（RL）训练，以及解决 LLM 引入的偏差问题。

总结：Go-Browse 通过模仿人类“先探索地图，再定点执行”的策略，利用图搜索和重置机制，高效地构建了高质量的 Web 智能体训练数据，显著提升了中小规模模型在复杂 Web 任务上的表现，是 Web Agent 领域的一项重要进展。