Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

本文提出了名为 Vision2Web 的分层基准测试,旨在通过构建涵盖从静态 UI 到全栈开发的 193 项真实任务及基于 GUI 代理与视觉语言模型的验证框架,系统评估大语言模型在复杂端到端网站开发中的能力并揭示现有模型在该领域的显著差距。

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

发布于 2026-03-30
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Vision2Web 的新工具,你可以把它想象成**“给 AI 程序员出的一套终极网页设计考试”**。

为了让你更容易理解,我们可以把开发一个网站比作**“盖房子”**。

1. 为什么要搞这个考试?(背景)

现在的 AI(大语言模型)很聪明,能写代码,就像请了个**“天才建筑学徒”**。

  • 以前的考试(旧基准): 就像只考学徒“能不能砌好一面墙”或者“能不能修好一扇坏掉的窗户”。这只能看出他修修补补的能力,看不出他能不能从头到尾盖好一栋完整的别墅
  • 现在的痛点: 没人知道这个学徒能不能真的盖出一栋既好看(视觉还原)、又好用(功能正常)、还能住人(全栈运行)的房子。

2. Vision2Web 是什么?(核心概念)

Vision2Web 就是一个分等级的“盖房子”大考,专门测试 AI 能不能根据设计师的图纸(图片),把房子盖出来。

它把考试分成了三个难度等级,就像游戏闯关一样:

  • 第一关:静态网页(画图纸)
    • 任务: 给你一张房子的外观效果图(比如电脑、平板、手机三种视角的图)。
    • 要求: AI 要画出和图一模一样的“毛坯房”(静态代码)。
    • 比喻: 就像让学徒照着照片画素描,要求线条、比例、颜色分毫不差。
  • 第二关:交互式前端(装修并通电)
    • 任务: 给你多张图,还要告诉你房间之间的逻辑(比如“点击门把手,门会开”)。
    • 要求: AI 要盖出一个能动的房子,点击按钮要有反应,页面之间能跳转。
    • 比喻: 不仅要画得像,还要把灯装好,门能推开,楼梯能走上去。
  • 第三关:全栈网站(盖摩天大楼)
    • 任务: 给你详细的施工说明书和图纸。
    • 要求: AI 要盖出一栋完整的摩天大楼,包括地基、水电、保安系统(数据库)、前台接待(后端)和装修(前端)。
    • 比喻: 这是最难的一关,要求从打地基到入住,所有环节都要跑通,不能塌房。

3. 怎么给 AI 打分?(独特的“双考官”制度)

以前的考试,要么靠人眼死盯着看(太慢),要么靠死板的代码测试(太死板)。Vision2Web 发明了一套**“双考官”自动评分系统**:

  • 考官 A(GUI 智能体):负责查“功能”
    • 角色: 一个**“挑剔的试住员”**。
    • 工作: 它会自动操作网站,像真人一样点击、输入、跳转。
    • 比喻: 它会在房子里走一圈,看看门能不能开、灯能不能亮、水龙头有没有水。如果它点“登录”没反应,就扣分。
  • 考官 B(VLM 视觉法官):负责查“颜值”
    • 角色: 一个**“强迫症设计师”**。
    • 工作: 它拿着 AI 盖好的房子和原始图纸做对比。
    • 比喻: 它会拿着放大镜看:“哎,这个窗户歪了 2 度”、“那个按钮颜色太深了”。它专门挑刺,确保房子和图纸长得一模一样。

4. 考试结果怎么样?(发现的大问题)

作者让目前最厉害的 8 个 AI 模型参加了这场考试,结果发现:

  • 越难越拉胯: AI 在“画图纸”(第一关)时表现还不错,但一旦到了“盖摩天大楼”(第三关),大部分 AI 就彻底崩溃了。
  • 小屏幕更难受: 让 AI 适应手机或平板的布局,比适应电脑屏幕要难很多,就像让学徒在狭小的空间里盖房子,容易出错。
  • 最强选手也有短板: 即使是目前最强的 AI(如 Claude Opus),在盖复杂大楼时,也会经常把“水电”搞错,或者把“房间”连错。
  • 框架很重要: 同样的 AI 大脑,放在不同的“工具箱”(开发框架)里,表现也不一样。就像给同一个厨师换不同的锅,炒出来的菜味道不同。

5. 这篇论文的意义是什么?

这就好比给 AI 行业立了一个新的“行业标准”

  • 以前我们不知道 AI 到底能不能干大活。
  • 现在有了 Vision2Web,我们就能精准地知道:AI 哪里强(画图画得好),哪里弱(盖楼容易塌)。
  • 这告诉未来的研究者:别光盯着让 AI 写几行代码了,得想办法让 AI 学会统筹规划,学会盖整栋楼,而不仅仅是砌砖。

总结一下:
这篇论文就是给 AI 程序员发了一张**“建筑师资格证”的考试大纲。它告诉我们,现在的 AI 虽然能当个不错的“绘图员”或“装修工”,但离成为一个能独立“盖摩天大楼”的总建筑师**,还有很长的路要走。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →