WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions

本文介绍了 WARC-Bench,这是一个利用网络归档文件来评估多模态人工智能代理在复杂图形用户界面子任务上表现的新颖基准,结果表明,尽管当前前沿模型面临困难,但开源模型通过监督微调以及结合可验证奖励的强化学习显著改进,从而实现了具有竞争力的性能。

原作者: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

发布于 2026-05-20✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在教一个机器人如何使用电脑。以往的大多数测试只要求机器人做两件事之一:要么在屏幕上指向单个按钮(“点击红色按钮”),要么规划一次庞大而复杂的旅程(“为一家四口预订假期,包括机票、酒店和租车,总费用控制在 2000 美元以下”)。

这篇论文的作者意识到,在这两者之间存在巨大的空白。他们发现,在机器人能够预订那次假期之前,它必须先掌握中间那些微小而棘手的步骤:滚动列表以找到特定日期、拖动滑块调整预算,或在填写表格时不意外删除已有的文本。他们将这些称为"GUI 子任务”。

以下是他们的工作"WARC-Bench"的简要概述:

1. 问题:“缺失的中间环节”

将复杂的网络任务想象成烘焙蛋糕。

  • 视觉定位:“拿起鸡蛋。”(太简单)。
  • 长程导航:“烘焙蛋糕、抹上糖霜,并将其送到派对。”(太复杂,变量太多)。
  • 缺失的中间环节:“把鸡蛋敲进碗里,别让蛋壳掉进去”,或者“搅拌面糊直到它变得顺滑”。

作者认为,当前的 AI 机器人正在这类“中间步骤”上失败。它们可能知道“蛋糕”是什么,但却难以掌握厨房工具那些具体而繁琐的操作机制。

2. 解决方案:一个“穿越时空”的测试厨房

为了测试这些机器人,团队构建了WARC-Bench

通常,在真实的互联网上测试机器人是混乱的:网站会变更,弹出窗口会出现,服务器会崩溃。为了解决这个问题,团队使用了WARC 文件(网络存档)。

  • 类比:想象在某个特定时刻,对某个网站拍摄一张完美的、冻结的快照,包含其所有按钮、脚本和图像。你将这张快照放入一个“时间胶囊”中。
  • 工作原理:当他们测试机器人时,并不会将其发送到实时互联网,而是将其送入这个“时间胶囊”。机器人与这个冻结的、完美的网站副本进行交互。这就像网络浏览器的飞行模拟器:安全、可重复,且每次完全一致。

他们在这个模拟器中创建了 438 个不同的“微型挑战”,例如“在日历上选择 3 月 21 日”或“向下滚动以查找价格”。

3. 结果:即使是“最聪明”的机器人也感到吃力

他们在这些微型挑战上测试了世界上最先进的 AI 模型(如 Claude 4.0 和 GPT-5)。

  • 现实检验:即使是最聪明的机器人,也仅能正确完成约**65%**的这些简单任务。
  • 类比:这就像给一个聪明的人类出考题,要求他们系一个特定的结或填写一份税务表格。即使聪明人,如果指令棘手或界面令人困惑,也会犯错。机器人无法“读懂”网站的“氛围”。

4. 改进方法:用“电子游戏”进行训练

作者希望看看能否教会开源机器人(通常较弱)变得更好。他们使用了两种训练方法:

  1. 监督微调(SFT):向机器人展示成千上万个人类成功完成这些任务的示例,就像向学生展示已解决的数学题。
  2. 基于可验证奖励的强化学习(RLVR):这就像电子游戏。他们让机器人尝试完成任务。如果成功,它就获得一个“分数”(奖励);如果失败,则得零分。机器人通过玩成千上万次游戏来学习,意识到:“哦,我上次点错了按钮,我不该再那样做了。”

结果
通过在合成(虚假但逼真)网站上使用这种“电子游戏”训练方法,他们的开源模型分数从低位跃升至52.3%。这令人印象深刻,因为它在这些特定任务上击败了许多昂贵的闭源“超级大脑”。

5. 为什么这很重要

论文总结道,如果你希望机器人擅长那些宏大而复杂的工作(如预订那次假期),你首先必须确保它擅长那些微小而枯燥的工作(如点击正确的日期)。

他们发现,机器人处理这些微小、特定子任务的能力,是预测其处理宏大、复杂任务表现的一个非常强有力的指标。如果一个机器人无法导航下拉菜单,它很可能也无法规划行程。

简而言之:作者构建了一个安全、时间冻结的游乐场,用于测试机器人处理使用网站时那些微小而棘手的细节的能力有多强。他们发现,即使是最好的机器人也不擅长这些细节,但可以通过玩“电子游戏”(做对就得分)来训练它们,使其表现大幅提升。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →