WebXSkill: Skill Learning for Autonomous Web Agents

WebXSkill 提出了一种将参数化可执行程序与步骤级自然语言指导相结合的新框架,通过技能提取、基于 URL 图的索引组织以及包含自动化执行与引导执行两种模式的部署机制,有效弥合了现有网页智能体技能表述中的落地差距,显著提升了其在长程任务中的成功率。

Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, Si Qin, Suman Nath, Qingwei Lin, Chetan Bansal, Dongmei Zhang, Saravan Rajmohan, Jianfeng Gao, Huax
发布于 2026-04-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WEBXSKILL 的新框架,旨在让 AI 网页代理(Web Agents)变得更聪明、更可靠。

为了让你轻松理解,我们可以把AI 网页代理想象成一个刚入职的实习生,而网页就是复杂的办公大楼

🌟 核心问题:实习生为什么总是“翻车”?

在这个办公大楼里,实习生(AI)的任务是帮老板办事,比如“去 3 楼采购部买 5 个订书机,然后去 5 楼财务部报销”。

  • 以前的做法(纯文本指令): 老板只给实习生一张纸条,上面写着:“先去采购部,找到订书机,买 5 个,再去财务部……"
    • 缺点: 实习生虽然看懂了,但他不知道具体怎么操作(比如哪个按钮是“购买”,哪个是“确认”)。他得自己一步步摸索,一旦走错一步,或者页面变了,他就懵了,只能从头再来。
  • 另一种做法(纯代码脚本): 老板直接给实习生一个自动执行器(像是一个黑盒子机器人),只要输入“买订书机”,机器人就自动跑完所有步骤。
    • 缺点: 机器人跑得太快,实习生完全看不懂它在干什么。如果机器人卡住了(比如页面弹窗挡住了路),实习生就不知道该怎么救场,只能眼睁睁看着任务失败。

这就是论文里说的“落地差距”(Grounding Gap): 要么懂道理但不会动手,要么会动手但不懂道理。


💡 WEBXSKILL 的解决方案:给实习生配“智能导航仪”

WEBXSKILL 给这个实习生配备了一种**“可执行技能”(Executable Skills)。你可以把它想象成一种“带语音导航的自动驾驶模式”**。

每个技能都包含两样东西:

  1. 具体的操作程序(代码): 就像导航仪里的“自动路线”,能直接执行点击、输入等操作。
  2. 分步语音指导(自然语言): 就像导航员在旁边说:“现在请向左转,注意避开那个红绿灯……"

这个系统有三个主要步骤:

1. 技能提取(从“老员工”那里偷师)

  • 比喻: 系统去观察那些已经成功完成任务的“老员工”(合成数据中的 AI 轨迹),把他们重复做的动作(比如“搜索商品”、“加入购物车”)提炼出来,变成标准化的“技能包”。
  • 创新点: 以前只能从成功的案例里学,现在连失败的案例里有用的片段也能提炼出来(比如“虽然最后没买成,但前面搜索和筛选的步骤是对的”)。

2. 技能整理(建立“技能地图”)

  • 比喻: 把学来的技能包按“地点”分类。
    • 在“购物网站”的地图节点下,存放“搜索商品”、“比价”技能。
    • 在“论坛”的地图节点下,存放“发帖”、“回复”技能。
  • 作用: 当实习生走到“购物区”时,系统自动把相关的技能包递给他,而不是把全公司的技能都塞给他,让他眼花缭乱。

3. 技能部署(两种驾驶模式)
这是最精彩的部分,系统根据实习生的能力,提供两种模式:

  • 🚗 模式一:全自动驾驶(Grounded Mode)

    • 适用对象: 能力强的实习生(大模型)。
    • 怎么工作: 实习生喊一声“去采购部”,系统直接接管,自动跑完所有步骤。
    • 好处: 速度极快,一步到位。
    • 风险: 如果路上突然修路(网页变了),实习生可能反应不过来。
  • 🚲 模式二:辅助骑行(Guided Mode)

    • 适用对象: 能力稍弱或需要灵活性的实习生。
    • 怎么工作: 系统不直接代劳,而是像教练一样在旁边喊:“第一步,点击搜索框;第二步,输入‘订书机’……"实习生自己动手操作。
    • 好处: 如果网页突然变了(比如搜索框不见了),实习生能立刻发现并自己想办法(比如去别的地方找),而不是死板地执行命令导致卡死。

🏆 效果如何?

论文在两个著名的“考场”(WebArena 和 WebVoyager)上测试了这个系统:

  1. 成功率大增: 相比以前的方法,任务成功率提高了 9.8% 到 12.9%。这意味着实习生更少“迷路”,更多“办成事”。
  2. 灵活性强: 对于能力稍弱的模型,使用“辅助骑行”模式效果最好;对于能力强的模型,“全自动驾驶”模式效率最高。
  3. 通用性: 即使是在没见过的网站上,只要结构类似,实习生也能利用“辅助骑行”模式,根据语音指导灵活调整,完成任务。

📝 总结

WEBXSKILL 就像是给 AI 网页代理装上了**“既懂操作又懂原理”的超级大脑**。

  • 它不再让 AI 盲目地试错(像以前那样)。
  • 它也不再让 AI 像机器人一样死板执行(像以前那样)。
  • 它让 AI 既能一键搞定复杂任务,又能在遇到意外时灵活应变

这就好比从“给实习生一张模糊的纸条”进化到了“给实习生一个既能自动驾驶、又能随时语音指导的智能导航仪”,让 AI 真正成为了能独当一面的“职场老手”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →