Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本文提出了名为 Vibe Code Bench 的新基准,通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估,揭示了当前模型在从零构建应用方面仍存在显著局限,并强调了自测试机制及评估者一致性对结果的关键影响。

Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 "Vibe Code Bench"(可以想象成“氛围编程大考”)的全新测试项目。

为了让你轻松理解,我们可以把人工智能写代码想象成雇佣一个超级聪明的“数字实习生”

1. 以前的考试 vs. 现在的考试

  • 以前的考试(旧基准):
    想象一下,你让实习生做一道数学题(比如“计算 1+1"),或者让他修补一个已经写好的乐高城堡里的一个小缺口(比如修复一个 Bug)。

    • 现状: 现在的 AI 在这些“填空题”或“修补题”上表现得很棒,几乎能拿满分。
    • 问题: 但这不代表它能从零开始盖一座完整的房子
  • 现在的考试(Vibe Code Bench):
    这次,考官直接给实习生一张手绘的草图(自然语言描述,比如“我想做一个能记录习惯的 APP"),然后说:“给你 5 个小时,从零开始,把这座房子盖好,并且要能住人(能运行),还要能通水电(连接数据库和支付系统)。”

    • 核心挑战: 这不是做一道题,而是从 0 到 1 完成整个项目

2. 考场是怎么设计的?

为了公平测试,作者们搭建了一个全真模拟的“数字工地”

  • 100 个任务: 就像 100 个不同的建筑图纸。有的简单(个人用的习惯追踪器),有的中等(初创公司的预约系统),有的很难(企业级的审批流程)。
  • 真实环境: 实习生不能只写代码,他们必须在一个虚拟的房间里,拥有电脑终端(像黑客一样敲命令)、浏览器(像普通人一样点鼠标)和外部服务(比如真的能发电子邮件、真的能处理信用卡支付,虽然是在测试模式下)。
  • 考官是谁? 考官不是人,而是一个全自动的“机器人质检员”。它会像普通用户一样,打开浏览器,一步步点击、登录、买东西、发评论。如果机器人能顺利完成所有步骤,这个 APP 就算“及格”。

3. 考试成绩怎么样?

作者测试了目前世界上最顶尖的 16 个 AI 模型(包括 GPT-5、Claude 等)。结果有点让人清醒:

  • 最高分: 最好的模型(GPT-5.3-Codex)只拿到了 61.8% 的通过率。
    • 比喻: 就像让 100 个顶尖建筑师盖房子,结果只有 60 多座房子能真正住人,剩下的要么没盖好,要么门打不开,要么水电没通。
  • 结论: 虽然 AI 写代码很厉害,但独立、可靠地从头开发一个完整软件,目前仍然是 AI 的“未解之谜”。

4. 发现了什么有趣的秘密?

在分析这些“实习生”的表现时,作者发现了一个关键的成功秘诀

  • 自我测试(Self-Testing):
    • 表现好的模型: 它们写几行代码,就会停下来,打开浏览器自己点点看,发现错了就改,再写,再测。就像是一个谨慎的工匠,边做边检查。
    • 表现差的模型: 它们埋头狂写代码,写完直接交卷,从不检查。就像是一个急躁的画手,画完直接扔给老师,结果全是错别字。
    • 数据说话: “自我测试”的次数和最终成绩有极强的正相关(相关系数 0.72)。会“自己找茬”的 AI,才能盖出好房子。

5. 为什么这个测试很重要?

以前我们总问:"AI 能不能写代码?”答案是肯定的。
现在的问题是:"AI 能不能像人类工程师一样,把想法变成真正能用的产品?”

  • 评估更真实: 以前的测试就像考“填空题”,现在的测试是考“毕业设计”。
  • 成本与效率: 研究发现,花更多的钱和时间(让 AI 多跑几遍测试),确实能提高成功率,但边际效应递减(越往后越难提升)。
  • 谁来当考官? 论文还发现,谁来做考官很重要。用不同的 AI 模型当考官,对同一个 APP 的打分可能天差地别。这就像让不同的美食评论家试吃,有的觉得好吃,有的觉得难吃。

总结

这篇论文就像给 AI 行业发了一张**“驾照路考”成绩单**。

它告诉我们:现在的 AI 已经能熟练地做数学题修修补补了,但要想让它独立盖起摩天大楼(从零开发完整应用),它还只是个需要不断自我检查、偶尔会犯错的“新手司机”

Vibe Code Bench 就是那个让所有 AI 模型必须面对的真实路考,它不再看谁背题背得好,只看谁能真正把车(软件)安全、完整地开到目的地。