Safe and Scalable Web Agent Learning via Recreated Websites

本文提出了 VeriEnv 框架,通过利用语言模型自动将真实网站克隆为可执行且可验证的合成环境,使智能体能够在安全、可扩展且无需启发式评判的条件下进行自我演化训练,从而显著提升其在未见网站上的泛化能力与特定站点掌握度。

Hyungjoo Chae, Jungsoo Park, Alan Ritter

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VERIENV 的新框架,它的核心目标是让 AI 智能体(Web Agent)能够更安全、更高效地学习如何操作网页。

为了让你轻松理解,我们可以把这篇论文的故事想象成**“教一个新手司机开车”**。

1. 过去的困境:在真实车流中练车(不安全且低效)

想象一下,如果你想教一个刚拿到驾照的新手(AI 智能体)如何开车,传统的做法是直接把他扔到真实的城市街道(真实的互联网网站)上。

  • 危险(Unsafe): 新手可能会撞车、闯红灯,或者不小心把别人的车刮了(AI 可能会误删数据、骚扰真实用户或违反网站规则)。
  • 无法重置(Hard to Reset): 在真实世界里,一旦撞了车,你没法按个按钮就让时间倒流,把路障和车辆都变回原样。每次练习都要等很久。
  • 评分模糊(Unverifiable): 怎么判断新手开得对不对?以前是靠一个“教练”(大语言模型)凭感觉打分。教练可能会看走眼,比如新手其实开错了,但教练觉得“看起来挺像那么回事”就给满分。这种评分不可靠,新手就学不到真本事。

2. VERIENV 的解决方案:建造一个完美的“赛车模拟器”

VERIENV 的做法完全不同。它不直接把新手扔上真实街道,而是先建造一个一模一样的“赛车模拟器”

  • 克隆网站(Recreating Websites):
    论文里的“代码特工”(Coding Agent,一种会写代码的 AI)会像3D 建模师一样,把真实的网站(比如亚马逊、谷歌财经)完整地“克隆”到一个虚拟的实验室里。

    • 这个虚拟网站不仅有漂亮的前台(界面),还有后台(数据库和逻辑)。
    • 最重要的是,这个模拟器是完全可控的。你可以随时按“重置键”,让一切回到初始状态,就像游戏里的存档读档一样。
  • 内部透视眼(Python SDK):
    在真实网站里,你只能看到屏幕上的东西。但在 VERIENV 的模拟器里,AI 拥有一副**“透视眼镜”**(通过 Python SDK 访问内部数据库)。

    • 当 AI 完成任务时,系统不需要猜它做没做对,而是直接去查数据库:“任务要求的商品是不是真的被加购了?”
    • 这就好比在模拟器里,系统直接读取新手的仪表盘数据,而不是靠教练肉眼观察。

3. 如何训练:从“猜谜”到“标准答案”

在传统的训练里,AI 做任务,靠另一个 AI 来猜它做得好不好(LLM-as-a-Judge),这就像让两个盲人互相评价谁画得更好。

在 VERIENV 里:

  • 任务生成: 系统自动生成任务,比如“在模拟的 CVS 网站上,找到最便宜的感冒药并加入购物车”。
  • 自动判卷(Verifiable Judges): 任务生成时,系统会同时生成一段**“标准答案代码”**。
    • 当 AI 做完任务,系统运行这段代码,直接去数据库核对:“感冒药加购了吗?价格对吗?”
    • 如果对了,给满分;错了,就是 0 分。没有模棱两可,没有“我觉得”。

4. 核心优势:安全、可进化、可规模化

  • 安全(Safe): 新手在模拟器里怎么撞车、怎么乱点,都不会影响真实世界的一个像素。
  • 自我进化(Self-Evolving): AI 可以在这个模拟器里反复练习成千上万次。它自己出题,自己做题,自己改错,像打游戏刷副本一样,水平越来越高。
  • 规模效应(Scalable): 研究者可以像搭积木一样,快速克隆出 149 个不同的网站模拟器。实验证明,训练的网站越多,AI 就越聪明,甚至能举一反三,去处理它从未见过的真实网站。

总结

简单来说,VERIENV 就是给 AI 智能体建了一个**“无限重置、自带透视眼、自动判卷”的虚拟驾校**。

它不再让 AI 在危险的真实互联网上“碰运气”,而是让它在安全、可控的克隆环境中,通过无数次的“试错 - 验证 - 修正”,练就一身真本事。最终,这些在模拟器里练出来的 AI,能够自信地走进真实的互联网世界,安全、高效地帮人类完成任务。

一句话比喻:
以前是让 AI 在真实的马路上学开车,随时可能出车祸且没人能准确打分;现在是用 VERIENV 给 AI 造了一个完美的虚拟赛车场,既能无限次重置,又有精准的电子裁判,让 AI 在安全的环境下飞速进化。