Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Die Arbeit stellt Vision2Web vor, ein hierarchisches Benchmark-System mit 193 Aufgaben zur Bewertung von Agenten bei der visuellen Webentwicklung von statischen UIs bis hin zu Full-Stack-Anwendungen, das auf realen Websites basiert und eine zuverlässige Evaluierung durch eine Kombination aus GUI-Agenten-Verifizierung und VLM-basiertem Urteil ermöglicht.

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

Veröffentlicht 2026-03-30
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein neues Haus bauen. Früher haben Computerprogramme nur einfache Ziegelsteine gelegt (einen einzelnen Code-Teil geschrieben). Heute haben wir aber „KI-Architekten" (die sogenannten Coding-Agenten), die behaupten, ganze Häuser aus dem Nichts erschaffen zu können, nur weil sie eine Skizze und eine Beschreibung bekommen haben.

Das Problem ist: Bisher haben wir diese Architekten nur getestet, indem wir ihnen sagten: „Mach mal eine Tür" oder „Schreib ein Fenster". Wir haben nie wirklich geschaut, ob das ganze Haus steht, ob die Türen ins Schloss gehen oder ob das Dach nicht durchsickert.

Die Forscher aus diesem Papier haben genau das geändert. Sie haben Vision2Web entwickelt – einen riesigen, dreistufigen Prüfplatz für KI-Architekten, die Webseiten bauen sollen.

Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Der Prüfplatz: Drei Schwierigkeitsstufen

Stell dir den Test wie ein Videospiel vor, das in drei Leveln aufgebaut ist. Jedes Level ist schwerer als das vorherige:

  • Level 1: Das Foto-Album (Statische Webseite).
    Die KI bekommt ein Foto einer Webseite (z. B. für Handy, Tablet und PC) und muss genau so aussehen wie das Foto. Es ist wie ein Malwettbewerb: „Zeichne genau das, was du siehst." Hier geht es nur darum, dass es hübsch aussieht.
  • Level 2: Das Puppenhaus mit beweglichen Teilen (Interaktives Frontend).
    Jetzt wird es kniffliger. Die KI muss nicht nur ein Bild malen, sondern ein ganzes Haus mit mehreren Räumen bauen. Wenn du auf den „Über uns"-Knopf klickst, muss die Tür aufgehen und in den nächsten Raum führen. Alles muss zusammenpassen, wie ein gut geöltes Puppenhaus.
  • Level 3: Die echte Stadt (Full-Stack-Website).
    Das ist der Boss-Level. Die KI muss ein komplettes System bauen, das im echten Internet funktioniert. Es muss Benutzeranmeldungen geben, Daten speichern, Fehler beheben und alles muss stabil laufen. Das ist, als würde man eine ganze Stadt mit Strom, Wasser und Verkehr planen, nur basierend auf ein paar Skizzen.

2. Der neue Richter: Wie prüfen wir, ob es gut ist?

Früher haben wir oft nur geschaut: „Ist der Code fertig?" Aber das reicht nicht. Was, wenn der Code läuft, aber die Webseite aussieht wie ein Haufen Schrott? Oder was, wenn sie schön aussieht, aber der „Kaufen"-Knopf nicht funktioniert?

Vision2Web nutzt zwei spezielle „Richter", die wie ein gut eingespieltes Team arbeiten:

  • Der Roboter-Tester (GUI-Agent):
    Stell dir einen Roboter vor, der genau die Aufgaben ausführt, die ein normaler Mensch auch machen würde. Er klickt sich durch die Webseite, loggt sich ein, legt Dinge in den Warenkorb und prüft: „Funktioniert das?" Er folgt dabei einem strengen Plan (einem Workflow), damit er nicht einfach wild herumklickt und dann vergisst, was er eigentlich testen sollte.
  • Der Kunstkritiker (VLM-Richter):
    Dieser Richter ist eine spezielle KI, die sich auf Bilder spezialisiert hat. Er nimmt das fertige Ergebnis der KI und hält es gegen das Original-Foto. Er schaut genau hin: „Ist die Schriftart richtig? Ist der Abstand zwischen den Bildern korrekt? Sieht es aus wie auf dem Foto?" Er gibt eine Punktzahl für die Ästhetik.

3. Was haben sie herausgefunden?

Die Forscher haben die besten KI-Modelle der Welt (wie Claude, GPT-5, Gemini) auf diesem Prüfplatz getestet. Das Ergebnis war ernüchternd, aber wichtig:

  • Je schwieriger es wird, desto schlechter werden sie.
    Die KIs sind super im Malen von Bildern (Level 1). Aber sobald sie ein interaktives Haus bauen müssen (Level 2), machen sie Fehler. Und beim Bau einer ganzen Stadt (Level 3) scheitern die meisten komplett.
  • Sie verlieren den Überblick.
    Wenn die Aufgabe zu lang wird, vergessen die KIs, was sie am Anfang geplant haben. Sie bauen vielleicht ein schönes Wohnzimmer, aber die Küche ist nicht mit dem Flur verbunden.
  • Das Handy ist ein Albtraum.
    Die KIs schaffen es oft nicht, die Webseite so anzupassen, dass sie auf einem kleinen Handybildschirm genauso gut aussieht wie auf einem großen Monitor.
  • Die besten Modelle sind immer noch nicht perfekt.
    Selbst die aktuell stärksten KIs (wie Claude-Opus) schaffen es nicht, ein komplettes, fehlerfreies System aus dem Nichts zu bauen. Sie brauchen noch viel Hilfe.

Warum ist das wichtig?

Stell dir vor, du willst ein Auto kaufen. Früher hast du nur geschaut, ob die Scheinwerfer leuchten (einfacher Code-Test). Jetzt sagt Vision2Web: „Nein, wir fahren eine Runde, testen die Bremsen im Regen, prüfen den Motor und schauen, ob der Kofferraum passt."

Dieser neue Test (Vision2Web) zeigt uns, wo die KI-Entwickler noch lernen müssen. Es ist wie ein Kompass, der sagt: „Wir können schon gut malen, aber wir müssen noch lernen, wie man komplexe Maschinen baut." Nur so können wir in Zukunft wirklich zuverlässige KI-Assistenten haben, die uns beim Programmieren von Webseiten helfen, ohne dass alles zusammenbricht.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →