Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 "Vibe Code Bench"（可以想象成“氛围编程大考”）的全新测试项目。

为了让你轻松理解，我们可以把人工智能写代码想象成雇佣一个超级聪明的“数字实习生”。

1. 以前的考试 vs. 现在的考试

以前的考试（旧基准）：
想象一下，你让实习生做一道数学题（比如“计算 1+1"），或者让他修补一个已经写好的乐高城堡里的一个小缺口（比如修复一个 Bug）。
- 现状： 现在的 AI 在这些“填空题”或“修补题”上表现得很棒，几乎能拿满分。
- 问题： 但这不代表它能从零开始盖一座完整的房子。
现在的考试（Vibe Code Bench）：
这次，考官直接给实习生一张手绘的草图（自然语言描述，比如“我想做一个能记录习惯的 APP"），然后说：“给你 5 个小时，从零开始，把这座房子盖好，并且要能住人（能运行），还要能通水电（连接数据库和支付系统）。”
- 核心挑战： 这不是做一道题，而是从 0 到 1 完成整个项目。

2. 考场是怎么设计的？

为了公平测试，作者们搭建了一个全真模拟的“数字工地”：

100 个任务： 就像 100 个不同的建筑图纸。有的简单（个人用的习惯追踪器），有的中等（初创公司的预约系统），有的很难（企业级的审批流程）。
真实环境： 实习生不能只写代码，他们必须在一个虚拟的房间里，拥有电脑终端（像黑客一样敲命令）、浏览器（像普通人一样点鼠标）和外部服务（比如真的能发电子邮件、真的能处理信用卡支付，虽然是在测试模式下）。
考官是谁？ 考官不是人，而是一个全自动的“机器人质检员”。它会像普通用户一样，打开浏览器，一步步点击、登录、买东西、发评论。如果机器人能顺利完成所有步骤，这个 APP 就算“及格”。

3. 考试成绩怎么样？

作者测试了目前世界上最顶尖的 16 个 AI 模型（包括 GPT-5、Claude 等）。结果有点让人清醒：

最高分： 最好的模型（GPT-5.3-Codex）只拿到了 61.8% 的通过率。
- 比喻： 就像让 100 个顶尖建筑师盖房子，结果只有 60 多座房子能真正住人，剩下的要么没盖好，要么门打不开，要么水电没通。
结论： 虽然 AI 写代码很厉害，但独立、可靠地从头开发一个完整软件，目前仍然是 AI 的“未解之谜”。

4. 发现了什么有趣的秘密？

在分析这些“实习生”的表现时，作者发现了一个关键的成功秘诀：

自我测试（Self-Testing）：
- 表现好的模型： 它们写几行代码，就会停下来，打开浏览器自己点点看，发现错了就改，再写，再测。就像是一个谨慎的工匠，边做边检查。
- 表现差的模型： 它们埋头狂写代码，写完直接交卷，从不检查。就像是一个急躁的画手，画完直接扔给老师，结果全是错别字。
- 数据说话： “自我测试”的次数和最终成绩有极强的正相关（相关系数 0.72）。会“自己找茬”的 AI，才能盖出好房子。

5. 为什么这个测试很重要？

以前我们总问："AI 能不能写代码？”答案是肯定的。
现在的问题是："AI 能不能像人类工程师一样，把想法变成真正能用的产品？”

评估更真实： 以前的测试就像考“填空题”，现在的测试是考“毕业设计”。
成本与效率： 研究发现，花更多的钱和时间（让 AI 多跑几遍测试），确实能提高成功率，但边际效应递减（越往后越难提升）。
谁来当考官？ 论文还发现，谁来做考官很重要。用不同的 AI 模型当考官，对同一个 APP 的打分可能天差地别。这就像让不同的美食评论家试吃，有的觉得好吃，有的觉得难吃。

总结

这篇论文就像给 AI 行业发了一张**“驾照路考”成绩单**。

它告诉我们：现在的 AI 已经能熟练地做数学题和修修补补了，但要想让它独立盖起摩天大楼（从零开发完整应用），它还只是个需要不断自我检查、偶尔会犯错的“新手司机”。

Vibe Code Bench 就是那个让所有 AI 模型必须面对的真实路考，它不再看谁背题背得好，只看谁能真正把车（软件）安全、完整地开到目的地。

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. 以前的考试 vs. 现在的考试

2. 考场是怎么设计的？

3. 考试成绩怎么样？

4. 发现了什么有趣的秘密？

5. 为什么这个测试很重要？

总结

Vibe Code Bench：端到端 Web 应用开发 AI 模型评估基准技术总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Benchmark Design)

2.2 生成环境 (Generation Harness)

2.3 自动化评估管道 (Automated Evaluation Pipeline)

2.4 评估指标

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 整体性能

4.2 关键发现

5. 意义与局限性 (Significance & Limitations)

意义

局限性

总结

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. 以前的考试 vs. 现在的考试

2. 考场是怎么设计的？

3. 考试成绩怎么样？

4. 发现了什么有趣的秘密？

5. 为什么这个测试很重要？

总结

Vibe Code Bench：端到端 Web 应用开发 AI 模型评估基准技术总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Benchmark Design)

2.2 生成环境 (Generation Harness)

2.3 自动化评估管道 (Automated Evaluation Pipeline)

2.4 评估指标

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 整体性能

4.2 关键发现

5. 意义与局限性 (Significance & Limitations)

意义

局限性

总结

类似论文

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses