WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

本文提出了 WebGym,这是一个包含近 30 万个真实网站任务的大规模开源训练环境,通过高效的异步回滚系统和强化学习微调,使基于 Qwen-3-VL-8B 的视觉智能体在未见过的真实网站任务上取得了超越 GPT-4o 等专有模型的显著性能提升。

Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WebGym 的新系统,它的目标是训练出更聪明的"AI 网页冲浪员”(视觉网页智能体)。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成训练一名“超级实习生”去处理复杂的网上任务

1. 以前的困境:在“玩具城”里练级

想象一下,以前训练 AI 去网上办事(比如查机票、比价、找资料),就像让实习生在**一个只有几个玩具商店的“玩具城”**里练习。

  • 问题:这个“玩具城”里的商店是假的,规则很简单,商品永远不变。
  • 结果:实习生在玩具城里练得飞起,但一旦把他扔到真实的互联网(一个拥有几百万个真实商店、商品天天变、页面设计五花八门的“真实大都会”),他就懵了。他可能会在同一个页面转圈圈,或者找不到真正的目标。
  • 现状:之前的训练环境太小、太假,导致 AI 到了真实世界就“水土不服”。

2. WebGym 是什么?一个“超大规模真实训练场”

作者们建造了 WebGym,这不仅仅是一个玩具城,而是一个拥有近 30 万个真实任务的“超级训练基地”

  • 规模巨大:它包含了来自 12 万多个真实网站的 30 万个任务。这就像给实习生提供了从“买瓶水”到“策划跨国旅行”等各种难度的真实工作。
  • 任务拆解(像切蛋糕一样)
    • 以前的任务要么太简单,要么太难。WebGym 用一种聪明的方法(像切蛋糕一样),把复杂的任务拆解成不同难度的小步骤。
    • 比如,任务原本是“找出一首好听的歌并下载”,它可以拆解成“先找歌”(简单)、“再找下载链接”(中等)、“最后点击下载”(困难)。
    • 这样,AI 可以先从简单的“切蛋糕”开始练手,慢慢掌握处理复杂任务的能力。
  • 严格的“考官”:每个任务都有详细的评分标准(Rubric)。就像老师批改作业,不仅看答案对不对,还要看步骤是否清晰、证据是否确凿。这避免了 AI“瞎蒙”答案。

3. 核心黑科技:让 AI“跑”得飞快的“异步传送带”

训练 AI 需要它不断地去网页上“试错”(比如点击、搜索、翻页),这个过程叫“ rollout"(推演)。

  • 以前的瓶颈:以前的系统像是一个排队的食堂。所有 AI 必须排队,等所有人都在同一时刻点击了按钮,才能进行下一步。如果有一个 AI 动作慢,所有人都在干等,效率极低。
  • WebGym 的突破:他们设计了一个**“异步传送带”系统**。
    • 想象成一条繁忙的流水线:有的机器在负责“截图”,有的负责“点击”,有的负责“思考”。
    • 只要有一个 AI 完成了截图,它立刻就把结果传给思考的 AI,不需要等别人。
    • 效果:这让数据收集的速度提高了 4 到 5 倍。就像把原本需要 4 小时的工作,现在 1 小时就干完了,让 AI 能在短时间内“见”过更多的真实网页。

4. 训练成果:小模型也能打败大模型

作者用这个系统训练了一个开源的 AI 模型(Qwen3-VL-8B,相当于一个“中等身材”的实习生)。

  • 训练方法:他们让 AI 在 WebGym 里不断试错,做对了就奖励,做错了就重来(强化学习)。
  • 关键技巧
    • 记笔记(Memory):教 AI 在长任务中记得住之前的信息(比如“刚才那个商品是 100 块”),不然它走着走着就忘了。
    • 戒掉坏习惯:如果 AI 在同一个页面反复点击(死循环),系统会惩罚它,强迫它换思路。
  • 最终成绩
    • 训练前,这个“中等身材”的实习生在陌生网站上的成功率只有 26%
    • 训练后,成功率飙升到 43%
    • 最惊人的是:它甚至打败了像 GPT-4oGPT-5 这样昂贵的“超级大脑”(它们的成功率只有 27%-30%)。这说明,好的训练环境 + 正确的训练方法,比单纯堆砌模型参数更重要

总结

这篇论文告诉我们:
想要让 AI 真正学会像人一样上网办事,不能只靠把模型做得更大,而是要给它提供一个足够大、足够真实、且训练效率极高的“游乐场”(WebGym)。

这就好比,与其给一个学生买最贵的课本(大模型),不如给他安排一个拥有几百万道真实习题、且有高效老师辅导的“特训营”(WebGym),这样他才能真正学会解题。WebGym 就是这样一个让 AI 从“玩具城”走向“真实大都会”的超级特训营。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →