Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een droom hebt: je wilt een app bouwen die je vrienden helpt om samen te eten, of een website voor je kleine bedrijf. Vroeger moest je daarvoor een team van dure programmeurs inhuren of zelf jaren studeren. Vandaag de dag zeggen AI's: "Geen probleem, zeg maar wat je wilt, en ik bouw het voor je."

Maar hoe weten we of die AI's het ook écht kunnen?

Dit artikel introduceert Vibe Code Bench. Het is als een grote, strenge keuring voor AI-architecten. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Lego" vs. Het "Huis"

Tot nu toe hebben we AI's getest op kleine, simpele taken. Het was alsof we ze vroegen: "Bouw een toren van 10 blokken" of "Zorg dat deze deur open gaat." Dat deden ze goed.

Maar in het echte leven wil je niet alleen een toren; je wilt een heel huis met elektra, loodgieterswerk, een dak en een sleutel die werkt. De meeste AI's faalden als ze moesten bouwen aan een compleet, werkend systeem van nul af. Ze konden de losse bakstenen wel, maar het huis viel in elkaar.

2. De Oplossing: Vibe Code Bench (De "Proefkeuken")

De onderzoekers van Vals AI hebben een nieuwe test ontwikkeld. Ze noemen het "Vibe Coding" omdat het gaat over het vertalen van een gevoel of een idee ("Ik wil een app waar mensen hun gewoontes kunnen tracken") naar een werkend product.

De Test: Ze gaven 16 van de slimste AI-modellen 100 verschillende opdrachtjes.
De Regels: De AI moest niet alleen code schrijven, maar ook alles installeren, de database opzetten, de betalingen regelen en zorgen dat het in een browser werkt.
De Scheidsrechter: Er was geen mens die naar de code keek. In plaats daarvan liep er een digitale robot (een "browser-agent") door de app. Deze robot klikte op knoppen, probeerde in te loggen, betaalde een euro en keek of de app deed wat hij moest doen. Als de robot vastliep, was de AI gezakt.

3. De Resultaten: De "Top 16"

Het nieuws is gemengd, maar wel leerzaam:

De Winnaar: De beste AI (GPT-5.3-Codex) slaagde voor ongeveer 62% van de tests. Dat klinkt goed, maar bedenk: als je een auto bouwt en hij werkt maar 6 op de 10 keer, ga je die auto niet kopen.
De Achterblijvers: Sommige AI's haalden nauwelijks 1% succes. Ze konden vaak niet eens beginnen, of de app crashte direct.
De Kosten: Soms kostte het bouwen van één app honderden dollars aan rekenkracht en tijd, terwijl het resultaat toch niet werkte.

4. Het Grote Geheim: "Probeer het zelf!"

De onderzoekers ontdekten iets heel belangrijks. Welke AI's het beste deden? Diegenen die tijdens het bouwen zelf gingen testen.

De Slechte AI: Schrijft code, klikt op "Klaar", en hoopt dat het werkt.
De Goede AI: Schrijft code, opent de app in een browser, klikt op de knoppen, ziet dat het niet werkt, en zegt: "Oh, ik heb een fout gemaakt, ik ga het nu fixen."

Het is als een kok die proeft terwijl hij kookt, in plaats van pas te proeven als het eten op tafel staat. De AI's die zichzelf "testten" (zogenoemd self-testing), hadden veel meer kans om een werkend huis te bouwen.

5. De Menselijke Factor: Wie is de Scheidsrechter?

Een ander interessant punt is dat de keuze van de "scheidsrechter" (de AI die de app beoordeelt) heel belangrijk is.
Soms gaf AI A een app een 10/10, terwijl AI B dezelfde app een 2/10 gaf. Het is alsof twee verschillende juryleden bij een zangwedstrijd totaal verschillende meningen hebben. De onderzoekers ontdekten dat sommige AI's veel meer lijken op wat mensen vinden dan andere.

Conclusie: Waar staan we nu?

Dit onderzoek zegt ons: AI kan nu al heel goed code schrijven, maar het bouwen van een compleet, betrouwbaar product is nog steeds heel moeilijk.

Het is alsof we AI's hebben die fantastische bakstenen kunnen maken, maar ze hebben nog steeds een beetje menselijke supervisie nodig om het dak op te leggen en te zorgen dat het water niet lekt. De toekomst ligt niet bij AI's die alleen maar "sneller" werken, maar bij AI's die leren om zichzelf te controleren en te verbeteren terwijl ze bouwen.

Kortom: We zijn niet meer in het stadium van "Kan AI schrijven?", maar in het stadium van "Kan AI écht bouwen?" en dat antwoord is: "Bijna, maar nog niet helemaal."

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. Het Probleem: De "Lego" vs. Het "Huis"

2. De Oplossing: Vibe Code Bench (De "Proefkeuken")

3. De Resultaten: De "Top 16"

4. Het Grote Geheim: "Probeer het zelf!"

5. De Menselijke Factor: Wie is de Scheidsrechter?

Conclusie: Waar staan we nu?

1. Het Probleem

2. Methodologie: Vibe Code Bench (VCB)

A. Dataset en Opdrachten

B. Generatie-omgeving (Harness)

C. Evaluatiepiplijn

3. Belangrijkste Bijdragen

4. Resultaten en Analyse

Prestaties

Gedragsanalyse

Kosten en Latentie

Menselijke Alignement

5. Betekenis en Conclusie

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. Het Probleem: De "Lego" vs. Het "Huis"

2. De Oplossing: Vibe Code Bench (De "Proefkeuken")

3. De Resultaten: De "Top 16"

4. Het Grote Geheim: "Probeer het zelf!"

5. De Menselijke Factor: Wie is de Scheidsrechter?

Conclusie: Waar staan we nu?

1. Het Probleem

2. Methodologie: Vibe Code Bench (VCB)

A. Dataset en Opdrachten

B. Generatie-omgeving (Harness)

C. Evaluatiepiplijn

3. Belangrijkste Bijdragen

4. Resultaten en Analyse

Prestaties

Gedragsanalyse

Kosten en Latentie

Menselijke Alignement

5. Betekenis en Conclusie

Meer zoals dit

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses