Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem hochintelligenten, aber noch etwas unerfahrenen Koch eine einzige, knappe Zutat: eine Idee für ein Gericht. Ihre Aufgabe ist es nicht, ihm nur zu sagen, wie man Eier kocht (ein isolierter Schritt), sondern ihn zu bitten, das gesamte Restaurant zu eröffnen – vom Kauf der Zutaten über das Kochen, das Servieren bis hin zum ersten zufriedenen Gast, der die Rechnung bezahlt.

Genau das ist die Herausforderung, die das Papier "Vibe Code Bench" untersucht. Hier ist eine einfache Erklärung der wichtigsten Punkte:

1. Das Problem: Der "Einzel-Test" reicht nicht

Bisher haben wir KI-Modelle getestet, indem wir ihnen kleine Aufgaben stellten, wie "Schreibe eine Funktion, die zwei Zahlen addiert". Das ist wie ein Koch, der nur weiß, wie man Eier brät.
Aber die wahre Magie der KI ("Vibe Coding") verspricht, dass man ihr einfach sagt: "Baue mir eine App, mit der ich meine Ausgaben tracken kann", und sie baut alles selbst.
Das Problem: Bisher gab es keinen Test, der prüfen konnte, ob die KI das ganze Restaurant eröffnen kann. Konnte sie die Website bauen? Konnte sie die Datenbank einrichten? Konnte sie sicherstellen, dass der Benutzer sich anmelden kann? Die alten Tests sagten uns das nicht.

2. Die Lösung: Vibe Code Bench (Der "Koch-Wettbewerb")

Die Autoren haben einen neuen Wettbewerb namens Vibe Code Bench erfunden.

  • Die Aufgabe: 100 verschiedene Ideen für Web-Apps (z. B. "Eine App, um Parkplätze zu finden" oder "Ein Tool für kleine Unternehmen").
  • Die Prüfung: Die KI muss die App von Grund auf neu programmieren, in einer sicheren Umgebung (einem "Sandkasten"), und sie muss so funktionieren, als wäre sie für echte Menschen gemacht.
  • Der Prüfer: Hier kommt das Geniale: Die App wird nicht von einem Menschen geprüft, sondern von einem autonomen Roboter-Browser. Dieser Roboter klickt sich durch die App, genau wie ein echter Nutzer. Er meldet sich an, kauft etwas, schreibt Kommentare und prüft, ob alles klappt. Wenn der Roboter hängen bleibt, ist die App gescheitert.

3. Die Ergebnisse: Die KI ist gut, aber noch nicht perfekt

Der Wettbewerb wurde mit 16 der fortschrittlichsten KI-Modelle der Welt durchgeführt.

  • Der Gewinner: Das beste Modell (GPT-5.3-Codex) hat es geschafft, etwa 62 % der Aufgaben fehlerfrei zu lösen. Das klingt gut, bedeutet aber auch, dass fast jede zweite App nicht richtig funktioniert.
  • Die Erkenntnis: Die KI kann Code schreiben, aber sie kann noch nicht zuverlässig ein komplettes, funktionierendes Produkt bauen. Es ist immer noch ein "Frontier"-Problem (ein Grenzgebiet), das viel Forschung erfordert.

4. Der geheime Erfolgsfaktor: "Selbst-Testen"

Eine der spannendsten Entdeckungen des Papiers ist, wie die erfolgreichen KIs gearbeitet haben.

  • Die "Besserwisser"-KI: Die Modelle, die gut abgeschnitten haben, haben nicht nur geschrieben und fertig. Sie haben sich selbst getestet! Sie haben die App im Browser geöffnet, haben Fehler gefunden, haben sie behoben und es nochmal probiert.
  • Die "Schnelle" KI: Modelle, die nur schnell Code geschrieben haben, ohne ihn zu prüfen, haben oft versagt.
  • Die Analogie: Es ist wie beim Lernen für eine Prüfung. Der Schüler, der nur die Antworten auswendig lernt (Code schreiben), macht Fehler. Der Schüler, der Probeklausuren schreibt, prüft, wo er hakt, und lernt daraus (Selbst-Testen), besteht die Prüfung viel besser.

5. Das Problem mit den Prüfern

Das Papier zeigt auch, dass es darauf ankommt, wer die Prüfung macht.

  • Wenn man verschiedene KI-Modelle als Prüfer nimmt, bewerten sie die Arbeit manchmal völlig unterschiedlich. Ein Modell sagt "Perfekt", ein anderes sagt "Müll".
  • Das ist wie bei einem Kunstwettbewerb, bei dem ein Juror "Modern" mag und ein anderer "Klassisch". Die Autoren haben gezeigt, dass man sehr vorsichtig sein muss, welche KI man als Richter einsetzt, da dies das Ergebnis massiv verändert.

Zusammenfassung

Das Papier sagt uns im Grunde: KI kann bereits erstaunlich gut Code schreiben, aber sie ist noch nicht bereit, als alleiniger Software-Ingenieur ein komplettes Geschäft zu eröffnen.

Es braucht noch viel Übung, vor allem die Fähigkeit, die eigene Arbeit kritisch zu prüfen und zu korrigieren ("Selbst-Testen"). Der "Vibe Code Bench" ist nun der neue Maßstab, um zu messen, wie weit wir auf dem Weg zu einer KI gekommen sind, die uns wirklich den ganzen Tag lang das Programmieren abnimmt.