WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

本文提出了 WebFactory,一种全自动闭环强化学习管道,通过将大语言模型编码的互联网知识高效压缩为可执行的 GUI 代理行为,仅利用 10 个网站的合成数据即可实现超越传统人类标注数据训练方法的性能与泛化能力。

Sicheng Fan, Qingyun Shi, Shengze Xu, Shengbo Cai, Tieyong Zeng, Li Ling, Yanyi Shang, Dehan Kong

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WebFactory(网络工厂) 的新技术,它的核心目标是:教人工智能(AI)如何像真人一样熟练地操作网页和电脑软件。

为了让你更容易理解,我们可以把这篇论文的内容想象成在建造一个“超级 AI 实习生”的训练营

1. 现在的困境:要么太危险,要么太昂贵

以前,训练 AI 操作网页主要有两条路,但都有大毛病:

  • 路一:让 AI 直接在真实的互联网上“试错”。
    • 比喻: 就像让一个刚学开车的新手直接上早高峰的北京三环练车。
    • 问题: 太危险了(可能误删数据、乱买东西),而且互联网变化太快(今天网页长这样,明天就变了),很难重复实验。
  • 路二:花钱请人一个个教 AI。
    • 比喻: 就像请一万位教练,手把手教 AI 怎么点鼠标、怎么填表单。
    • 问题: 太贵了,而且太慢。人类教得累死累活,AI 学得也慢。

2. WebFactory 的解决方案:建造一个“完美模拟城”

作者们想出了一个绝妙的主意:既然真实世界太乱,我们就造一个“完美的高仿真实验室”。

  • 高保真离线环境(The Perfect Simulation):

    • 比喻: 他们造了一个**“虚拟的互联网”。这里有淘宝、美团、携程等 10 个网站的完美克隆版**。
    • 特点: 这里没有验证码(CAPTCHA),没有登录障碍,没有网络卡顿。最重要的是,一切都在控制之中。如果 AI 点错了,系统能立刻知道正确答案是什么,而且可以无限次重来。
  • 知识驱动的“任务生成器”(The Task Architect):

    • 比喻: 以前是让人类出题,现在是用**更聪明的 AI(大模型)**来出题。
    • 操作: 这个“出题 AI"看着虚拟网站的结构,自动生成成千上万道练习题。比如:“帮我在虚拟的携程上,找一个下周五去北京、价格在 500 元以下的酒店,并预订下来。”
    • 优势: 题目是自动生成的,而且保证有标准答案,因为出题 AI 知道数据库里有什么。

3. 核心魔法:把“读万卷书”变成“行万里路”

这是论文最精彩的部分,叫做**“智能压缩”(Intelligence Compression)**。

  • 现状: 现在的 AI(大语言模型)像是一个博学的图书管理员,它读过互联网上所有的书,知道“怎么买机票”、“怎么查天气”,但它没亲手操作过,所以让它去点鼠标,它经常手忙脚乱。
  • WebFactory 的做法:
    1. 老师(强 AI)先做一遍: 让一个超级聪明的 AI 在“虚拟互联网”里把任务做一遍,记录下完美的操作步骤(轨迹)。
    2. 学生(训练中的 AI)跟着学: 让我们要训练的 AI 看着这些完美步骤,通过**强化学习(RL)**不断试错。
    3. 自动打分: 只要学生点错了位置,或者填错了字,系统立刻扣分;做对了就奖励。
    4. 结果: 这个“学生”在虚拟世界里练了成千上万次,把图书管理员脑子里的“知识”,压缩成了肌肉记忆般的“操作技能”。

4. 惊人的效果:只练了 10 个网站,却能通杀全网

  • 数据效率极高: 这个 AI 只用了10 个虚拟网站的数据进行训练(相当于只练了 10 个科目),却表现得比那些在真实互联网上练了成千上万个网站、或者花巨资请人类标注数据的 AI 还要好。
  • 举一反三: 当把它放到真实的互联网(如真实的亚马逊、Airbnb)上时,它依然能很好地完成任务。
    • 比喻: 就像在驾校模拟器里练了 10 种路况的学员,拿到真实驾照后,开真实的车也能稳稳当当,甚至比其他在真实路上练过很久的人开得更稳。

5. 一个有趣的发现:AI 的“天赋”很重要

论文还发现,不同的“老师”(基础大模型)教出来的学生,潜力是不一样的。

  • 有些大模型虽然知识渊博,但很难转化为操作技能(“ embodiment potential"低)。
  • 有些模型则天生适合做这种“从知识到行动”的转化。
  • 这就像教体育:有些学生虽然理论课满分,但身体协调性差;有些学生则天生就是运动健将。WebFactory 提供了一种方法来测试和挖掘这种“天赋”。

总结

WebFactory 就像是给 AI 建了一个**“无限刷新的虚拟练功房”
它不再依赖昂贵的人类老师,也不再让 AI 在危险的真实互联网上乱撞。它利用更聪明的 AI 自动生成题目和标准答案,让“学生 AI"在安全、可控的环境里进行
地狱级的高强度训练**。

最终,这个“学生”把书本上的互联网知识,压缩成了实实在在的操作能力,成为了一个既聪明又手稳的“全能网页管家”。这标志着我们离真正的通用人工智能(能像人一样自主操作电脑和手机的 AI)又近了一大步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →