Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, Si Qin, Suman Nath, Qingwei Lin, Chetan Bansal, Dongmei Zhang, Saravan Rajmohan, Jianfeng Gao, Huax

发布于 2026-04-16

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WEBXSKILL 的新框架，旨在让 AI 网页代理（Web Agents）变得更聪明、更可靠。

为了让你轻松理解，我们可以把AI 网页代理想象成一个刚入职的实习生，而网页就是复杂的办公大楼。

🌟 核心问题：实习生为什么总是“翻车”？

在这个办公大楼里，实习生（AI）的任务是帮老板办事，比如“去 3 楼采购部买 5 个订书机，然后去 5 楼财务部报销”。

以前的做法（纯文本指令）： 老板只给实习生一张纸条，上面写着：“先去采购部，找到订书机，买 5 个，再去财务部……"
- 缺点： 实习生虽然看懂了，但他不知道具体怎么操作（比如哪个按钮是“购买”，哪个是“确认”）。他得自己一步步摸索，一旦走错一步，或者页面变了，他就懵了，只能从头再来。
另一种做法（纯代码脚本）： 老板直接给实习生一个自动执行器（像是一个黑盒子机器人），只要输入“买订书机”，机器人就自动跑完所有步骤。
- 缺点： 机器人跑得太快，实习生完全看不懂它在干什么。如果机器人卡住了（比如页面弹窗挡住了路），实习生就不知道该怎么救场，只能眼睁睁看着任务失败。

这就是论文里说的“落地差距”（Grounding Gap）： 要么懂道理但不会动手，要么会动手但不懂道理。

💡 WEBXSKILL 的解决方案：给实习生配“智能导航仪”

WEBXSKILL 给这个实习生配备了一种**“可执行技能”（Executable Skills）。你可以把它想象成一种“带语音导航的自动驾驶模式”**。

每个技能都包含两样东西：

具体的操作程序（代码）： 就像导航仪里的“自动路线”，能直接执行点击、输入等操作。
分步语音指导（自然语言）： 就像导航员在旁边说：“现在请向左转，注意避开那个红绿灯……"

这个系统有三个主要步骤：

1. 技能提取（从“老员工”那里偷师）

比喻： 系统去观察那些已经成功完成任务的“老员工”（合成数据中的 AI 轨迹），把他们重复做的动作（比如“搜索商品”、“加入购物车”）提炼出来，变成标准化的“技能包”。
创新点： 以前只能从成功的案例里学，现在连失败的案例里有用的片段也能提炼出来（比如“虽然最后没买成，但前面搜索和筛选的步骤是对的”）。

2. 技能整理（建立“技能地图”）

比喻： 把学来的技能包按“地点”分类。
- 在“购物网站”的地图节点下，存放“搜索商品”、“比价”技能。
- 在“论坛”的地图节点下，存放“发帖”、“回复”技能。
作用： 当实习生走到“购物区”时，系统自动把相关的技能包递给他，而不是把全公司的技能都塞给他，让他眼花缭乱。

3. 技能部署（两种驾驶模式）
这是最精彩的部分，系统根据实习生的能力，提供两种模式：

🚗 模式一：全自动驾驶（Grounded Mode）
- 适用对象： 能力强的实习生（大模型）。
- 怎么工作： 实习生喊一声“去采购部”，系统直接接管，自动跑完所有步骤。
- 好处： 速度极快，一步到位。
- 风险： 如果路上突然修路（网页变了），实习生可能反应不过来。
🚲 模式二：辅助骑行（Guided Mode）
- 适用对象： 能力稍弱或需要灵活性的实习生。
- 怎么工作： 系统不直接代劳，而是像教练一样在旁边喊：“第一步，点击搜索框；第二步，输入‘订书机’……"实习生自己动手操作。
- 好处： 如果网页突然变了（比如搜索框不见了），实习生能立刻发现并自己想办法（比如去别的地方找），而不是死板地执行命令导致卡死。

🏆 效果如何？

论文在两个著名的“考场”（WebArena 和 WebVoyager）上测试了这个系统：

成功率大增： 相比以前的方法，任务成功率提高了 9.8% 到 12.9%。这意味着实习生更少“迷路”，更多“办成事”。
灵活性强： 对于能力稍弱的模型，使用“辅助骑行”模式效果最好；对于能力强的模型，“全自动驾驶”模式效率最高。
通用性： 即使是在没见过的网站上，只要结构类似，实习生也能利用“辅助骑行”模式，根据语音指导灵活调整，完成任务。

📝 总结

WEBXSKILL 就像是给 AI 网页代理装上了**“既懂操作又懂原理”的超级大脑**。

它不再让 AI 盲目地试错（像以前那样）。
它也不再让 AI 像机器人一样死板执行（像以前那样）。
它让 AI 既能一键搞定复杂任务，又能在遇到意外时灵活应变。

这就好比从“给实习生一张模糊的纸条”进化到了“给实习生一个既能自动驾驶、又能随时语音指导的智能导航仪”，让 AI 真正成为了能独当一面的“职场老手”。

Each language version is independently generated for its own context, not a direct translation.

WEBXSKILL 技术总结

1. 研究背景与问题定义

背景：
基于大语言模型（LLM）的自主 Web 代理（Web Agents）在通过浏览器执行复杂任务方面展现出巨大潜力。然而，在处理长周期（long-horizon）工作流时，现有代理往往表现脆弱。它们难以保留和重用程序性交互知识，导致面对重复性任务时仍需从头规划，造成步骤浪费和错误率上升。

核心问题：落地差距（Grounding Gap）
现有的技能（Skill）学习方法存在根本性的局限性，即“落地差距”：

文本工作流（Textual Workflow）： 如 AWM 等方法，将技能表示为自然语言指令。虽然能指导规划，但无法直接执行，代理仍需将指令转化为具体的浏览器操作，重新引入落地错误。
基于代码的技能（Code-based Skills）： 如 SkillWeaver 和 WALT，将技能封装为可执行的代码或脚本。虽然可直接执行，但对代理而言是“黑盒”，缺乏步骤级的自然语言指导。一旦执行中途失败，代理无法理解内部逻辑，难以进行错误恢复或自适应调整。

目标：
弥合上述差距，构建一种既能直接执行又能被代理理解与适应的技能表示形式。

2. 方法论：WEBXSKILL 框架

WEBXSKILL 是一个三阶段框架，旨在通过**可执行技能（Executable Skills）**解决落地差距。每个技能将参数化的动作程序与步骤级的自然语言指导相结合。

2.1 核心组件：可执行技能

每个技能包含两个核心部分：

动作程序（Action Program）： 具体的浏览器操作序列（如点击、输入、滚动），可被运行时环境直接执行。
步骤级指导（Step-level Guidance）： 描述每个步骤目的和推理的自然语言注释，使代理能够理解技能逻辑。

2.2 三阶段流程

(1) 技能提取 (Skill Extraction)

数据源： 利用现有的合成代理轨迹（Synthetic Agent Trajectories），避免了昂贵的自主网站探索和数据泄露风险。
抽象过程： 使用 LLM 从轨迹中识别可复用的动作子序列。
- 参数化： 将具体值（如特定搜索词）抽象为类型化参数（如 query: str）。
- 指导生成： 为每个动作步骤生成自然语言指导。
技能策展 (Curation)：
- 去重： 结合规则相似性和嵌入语义相似性进行在线去重。
- 优化： LLM 决定是添加新技能、更新现有技能还是跳过冗余项。
- 验证： 在测试环境中验证动作序列的可执行性，过滤掉会导致浏览器错误的技能。

(2) 技能组织 (Skill Organization)

基于 URL 的技能图 (Skill Graph)： 将技能组织成图结构 $G = \{(u_j, S_j)\}$ $G = {(u_{j}, S_{j})}$ 。
- 节点 $u_j$ 是泛化的 URL 模式（如 shopping/catalogsearch/*）。
- 边关联该 URL 模式下适用的技能集合 $S_j$ 。
上下文感知检索： 在推理时，根据当前页面 URL 匹配图节点，检索相关技能候选。进一步通过检查当前页面是否存在目标元素来过滤，确保技能的可执行性和相关性。

(3) 技能部署 (Skill Deployment)

WEBXSKILL 提供两种互补的部署模式，以平衡效率与自主性：

落地模式 (Grounded Mode)：
- 机制： 代理将技能作为原子工具调用（Tool Call），运行时自动执行底层动作序列。
- 优势： 极大提高多步任务的执行效率。
- 适用： 适合强模型，它们具备较强的推理和错误恢复能力。
引导模式 (Guided Mode)：
- 机制： 技能作为分步指导呈现给代理，代理使用原生浏览器动作逐步执行。
- 优势： 当页面状态与预期不符时，代理可根据指导进行自适应调整（Adaptation）和错误恢复，保持自主性。
- 适用： 适合弱模型或复杂多变的场景。

3. 主要贡献

提出可执行技能概念： 首次将参数化动作程序与步骤级自然语言指导配对，填补了文本工作流（不可执行）和代码技能（不可解释）之间的落地差距。
构建 WEBXSKILL 框架： 提出了一套完整的三阶段流水线，包括从低成本合成轨迹中提取技能、基于 URL 图的上下文感知检索，以及双模式部署机制。
实证效果显著： 在 WebArena 和 WebVoyager 基准测试中，相比基线模型，任务成功率分别提升了 9.8 和 12.9 个百分点。
自适应部署策略： 揭示了部署模式应根据模型能力进行选择：强模型受益于落地模式（效率），弱模型受益于引导模式（鲁棒性）。

4. 实验结果与分析

4.1 基准测试表现

WebArena:
- GPT-5: 落地模式达到 69.5% 的成功率（基线 59.7%），提升显著。
- Qwen-3.5: 引导模式达到 53.9% 的成功率（基线 45.5%），优于落地模式（48.7%），表明弱模型更需要步骤指导来辅助规划。
- 相比 SkillWeaver 和 WALT 等现有方法，WEBXSKILL 在大多数场景下表现更优。
WebVoyager (真实网站):
- 落地模式整体成功率 86.1%，比基线提升 14.2 个百分点。
- 跨环境迁移： 使用仅从 WebArena 提取的技能在 WebVoyager 上测试，引导模式仍能达到 85.1% 的成功率，证明了技能作为“分步指导”具有极强的跨环境迁移能力。

4.2 效率与技能使用

技能采用率 (Usage Rate): WEBXSKILL 的技能采用率（Grounded 模式 70.8%）远高于 SkillWeaver (37.7%) 和 WALT (33.1%)，得益于其上下文感知的检索机制。
步骤效率： 落地模式显著减少了完成任务所需的平均步骤数（9.3 步 vs 基线 10.4 步）。

4.3 消融实验与失败分析

关键组件： 移除“技能验证”导致准确率下降 14.3%，证明技能质量策展至关重要；移除“技能图”导致检索噪声增加，准确率下降。
失败归因： 大多数失败（38%）源于代理在技能执行后的推理错误，而非技能本身设计缺陷。这表明技能框架有效，未来提升空间在于增强代理的上下文管理和推理能力。
技能覆盖： WEBXSKILL 提取的技能覆盖了 10 种功能类别，分布均衡，而现有方法（如 SkillWeaver）过度集中在检索类技能。

5. 意义与展望

学术意义：
WEBXSKILL 重新定义了 Web 代理中的技能表示，证明了“可执行性”与“可解释性”并非互斥。通过双模态部署，它灵活地平衡了自动化效率与代理的自主适应能力，为长周期任务规划提供了新的范式。

实际应用价值：

低成本构建： 利用合成轨迹而非昂贵的自主探索来构建技能库，降低了部署门槛。
鲁棒性： 引导模式使得代理在面对真实网页的动态变化（如布局调整、弹窗）时，能够像人类一样“阅读说明书”并灵活调整，而非僵化执行脚本。
通用性： 技能库的跨环境迁移能力表明，该方法有望应用于多样化的真实互联网场景。

局限性与伦理：
目前技能主要基于合成数据提取，可能未完全覆盖真实世界的复杂性和对抗性条件。在部署到生产环境前，需要严格的验证和安全检查，以防止自动化操作带来的潜在风险。

综上所述，WEBXSKILL 通过创新的技能表示和部署机制，显著提升了自主 Web 代理在复杂长任务中的表现，是迈向更智能、更鲁棒的 Web 自动化系统的重要一步。

WebXSkill: Skill Learning for Autonomous Web Agents