Vision2Web: A Hierarchical Benchmark for Visual Website… — Begrijpelijke uitleg

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een architect bent die een compleet huis moet bouwen, maar je hebt geen blauwdrukken, alleen een foto van het eindresultaat en een lijst met wensen. En je hebt een robot die moet bouwen. De vraag is: kan die robot het huis echt bouwen, of maakt hij alleen een nepgevel?

Dit is precies het probleem dat het nieuwe onderzoekspapier Vision2Web aanpakt. Hier is een uitleg in simpele taal, met een paar verhelderende vergelijkingen.

1. Het Probleem: De "Robot-Bouwer" is nog niet klaar

Tegenwoordig zijn slimme computers (AI) heel goed geworden in het schrijven van code, net als een robot die snel muren kan metselen. Maar tot nu toe hebben we ze alleen getest op kleine klusjes, zoals "maak een raam" of "repairs een lek". We hebben ze nog nooit getest op het bouwen van een heel huis, met elektriciteit, loodgieterswerk en een interieur dat eruitziet als op de foto.

Bestaande tests zijn te simpel. Ze kijken of de code werkt, maar niet of het huis er mooi uitziet of of de deuren echt open gaan.

2. De Oplossing: Vision2Web (De "Bouwwerkplaats")

De onderzoekers hebben Vision2Web bedacht. Dit is een enorme testbaan voor robots die websites moeten bouwen. Het is geen simpele test, maar een drie-trapsraket:

Niveau 1: De Postkaart (Statische pagina's)
De robot krijgt een foto van een webpagina en moet die exact natrekken. Het is alsof je een tekening moet kopiëren. De robot moet zorgen dat de kleuren, de afmetingen en de lay-out perfect kloppen.
- Vergelijking: Het is als een schilder die een foto moet nabewerken.
Niveau 2: Het Speelhuisje (Interactieve front-end)
Nu wordt het lastiger. De robot moet niet alleen de foto nabouwen, maar ook zorgen dat de deuren open gaan, dat je van kamer naar kamer kunt lopen en dat de knoppen werken. Het moet een compleet, bewoonbaar huis zijn, niet alleen een schildering.
- Vergelijking: Je bouwt nu een poppenhuis waar je de poppetjes kunt verplaatsen en de lampjes kunt aan doen.
Niveau 3: De Stad (Full-stack ontwikkeling)
Dit is de ultieme test. De robot moet een heel systeem bouwen: een website met een database, inlogsystemen, winkelwagentjes en alles wat erbij hoort. Het moet werken als een echte, complexe stad met verkeer, stroom en bewoners.
- Vergelijking: Je bouwt nu een heel dorp met wegen, huizen en elektriciteitscentrales, en alles moet met elkaar communiceren.

3. De Scheidsrechters: Hoe testen ze of het goed is?

In het verleden keken mensen handmatig naar de resultaten, wat traag en onnauwkeurig is. Vision2Web gebruikt twee speciale "scheidsrechters" die als een team werken:

De "Grijp-robot" (GUI Agent Verifier):
Deze robot doet precies wat een mens zou doen: hij klikt, scrolt en vult formulieren in. Hij controleert of de knoppen werken, of je kunt inloggen en of de winkelwagen leegmaakt. Hij is de functionele scheidsrechter.
- Vergelijking: Een proefpersoon die het huis betreedt om te kijken of de kraan water geeft en de verwarming werkt.
De "Oog-robot" (VLM Judge):
Deze robot kijkt naar het eindresultaat en vergelijkt het met de originele foto. Hij kijkt of de kleuren kloppen, of de tekst op de juiste plek staat en of het er "mooi" uitziet. Hij is de visuele scheidsrechter.
- Vergelijking: Een architect die kijkt of het gebouw eruitziet als op de tekening, zonder dat hij erin hoeft te lopen.

4. Wat hebben ze ontdekt? (De Resultaten)

Toen ze de beste AI-modellen van vandaag op deze testbaan zetten, was het resultaat verrassend en een beetje teleurstellend:

Ze zijn goed in simpele klusjes: De robots konden de "Postkaarten" (Niveau 1) redelijk goed nabouwen.
Ze raken in de war bij complexiteit: Zodra het ging om het "Speelhuisje" (Niveau 2) en zeker het "Dorp" (Niveau 3), vielen de robots flink terug.
De "Grote Broer" wint het: Het model Claude-Opus-4.5 deed het het beste, maar zelfs die kon geen perfect dorp bouwen. Andere modellen, zoals die van Google en OpenAI, hadden grote moeite met de langere taken.
Het probleem: De robots kunnen goed één ding doen, maar ze verliezen het overzicht als het te groot wordt. Ze vergeten hoe de deuren werken als ze de elektriciteit moeten leggen, of ze bouwen een mooie gevel maar de deuren zitten vast.

Conclusie: Waarom is dit belangrijk?

Vision2Web is als een grote, eerlijke examencommissie voor AI. Het laat zien dat we nog ver weg zijn van robots die volledig zelfstandig complexe software kunnen bouwen.

De boodschap is duidelijk: we moeten stoppen met kleine tests en beginnen met grote, realistische uitdagingen. Alleen zo kunnen we zien waar de robots echt vastlopen en hoe we ze kunnen leren om niet alleen muren te metselen, maar ook een heel huis te bouwen dat bewoonbaar is.

Kortom: De robots zijn slim, maar ze zijn nog geen meesterbouwers. Vision2Web helpt ons om ze te trainen tot echte experts.

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

1. Het Probleem: De "Robot-Bouwer" is nog niet klaar

2. De Oplossing: Vision2Web (De "Bouwwerkplaats")

3. De Scheidsrechters: Hoe testen ze of het goed is?

4. Wat hebben ze ontdekt? (De Resultaten)

Conclusie: Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: Vision2Web

A. Hiërarchische Taakstructuur

B. Workflow-gebaseerde Agent Verificatie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

1. Het Probleem: De "Robot-Bouwer" is nog niet klaar

2. De Oplossing: Vision2Web (De "Bouwwerkplaats")

3. De Scheidsrechters: Hoe testen ze of het goed is?

4. Wat hebben ze ontdekt? (De Resultaten)

Conclusie: Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: Vision2Web

A. Hiërarchische Taakstructuur

B. Workflow-gebaseerde Agent Verificatie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit