DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Each language version is independently generated for its own context, not a direct translation.

DesignBench: De "Rijexamen" voor AI's die websites bouwen

Stel je voor dat je een zeer slimme, creatieve robot hebt die je kunt vragen om een huis te bouwen. Je geeft de robot een foto van een droomhuis, en hij moet de blauwdrukken (de code) tekenen zodat een aannemer het kan bouwen.

Vroeger konden deze robots alleen simpele houten hutten maken. Maar nu, in de moderne wereld, bouwen we complexe appartementencomplexen met specifieke regels voor elke kamer (React, Vue, Angular). De onderzoekers van dit paper, DesignBench, hebben een nieuwe test ontwikkeld om te kijken hoe goed deze robots echt zijn in het bouwen van die moderne huizen.

Hier is wat ze hebben ontdekt, vertaald naar alledaags taal:

1. Het Probleem: De oude tests waren te makkelijk

Vroeger testten ze de robots alleen op het bouwen van simpele hutten (gewone HTML/CSS). Maar in het echte leven bouwen mensen geen hutten meer; ze bouwen complexe gebouwen met specifieke bouwstijlen.

Het gebrek: De oude tests keken alleen of de robot de eerste versie kon maken. Ze keken niet of de robot ook kon renoveren (als je zegt: "zet de muur blauw") of kon repareren (als er een raam scheef hangt).
De oplossing: DesignBench is een nieuwe, zware test die drie dingen checkt:
1. Bouwen: Maak een huis van een foto.
2. Renoveren: Pas het huis aan op basis van een verzoek.
3. Repareren: Vind en fix fouten in het huis.

2. De Testbaan: 900 huizen in 3 stijlen

De onderzoekers hebben 900 verschillende webpagina's (hun "huizen") verzameld. Ze hebben deze getest in de drie populairste "bouwstijlen" van vandaag: React, Vue en Angular.

Vergelijking: Stel je voor dat React, Vue en Angular drie verschillende talen zijn waarin architecten spreken. De robot moet niet alleen de foto begrijpen, maar ook in die specifieke taal kunnen praten.

3. De Resultaten: De robot is slim, maar nog niet perfect

Hier zijn de belangrijkste ontdekkingen, vertaald in analogieën:

Grote robots zijn beter dan kleine:
De "grote" AI-modellen (zoals Claude-3.7 of GPT-4o) bouwen veel betere huizen dan de "kleine" modellen. Het is alsof een meester-architect veel minder fouten maakt dan een leerling.
De bouwstijl maakt uit:
De robots zijn het allerbeste in het bouwen van simpele hutten (gewone HTML). Maar zodra ze moeten bouwen in de complexe stijlen (zoals Angular), maken ze veel meer fouten.
- Vergelijking: Het is alsof de robot gewend is om met Lego te bouwen, maar plotseling moet hij werken met ingewikkelde stalen constructies. Hij raakt dan de draad kwijt en maakt syntax-fouten (fouten in de regels van de taal).
Het moeilijkste is niet bouwen, maar repareren:
Het bouwen van een huis van nul af gaat nog redelijk. Maar als je de robot vraagt: "Vind die ene deur die scheef staat en maak hem recht", dan komt hij in de problemen.
- Vergelijking: De robot kan een hele nieuwe kamer schilderen, maar als je vraagt om alleen de lijstjes op de deur te vervangen, kijkt hij vaak naar de verkeerde deur of schildert hij de hele muur verkeerd. Hij heeft moeite om precies te zien waar hij moet grijpen.
Tekst is beter dan foto's voor aanpassingen:
Een verrassende ontdekking: Als je de robot een foto van het huis én de bouwtekeningen geeft, doet hij het niet veel beter dan als je hem alleen de bouwtekeningen geeft.
- Vergelijking: Als je een robot vraagt om een raam te verplaatsen, helpt het niet om een foto van het raam te tonen. De robot begrijpt de instructie ("verplaats het raam") veel beter als hij de technische specificaties (de code) leest. De foto voegt weinig extra waarde toe voor deze specifieke taken.
Geen "herbruikbare" onderdelen:
Moderne bouwtechniek gaat over het maken van herbruikbare onderdelen (bijvoorbeeld: "maak een standaard deur die we 10 keer gebruiken"). De robots maken echter vaak 10 keer dezelfde deur apart, in plaats van één keer een sjabloon te maken.
- Vergelijking: In plaats van een stempel te gebruiken om 100 identieke koekjes te maken, snijdt de robot 100 koekjes één voor één uit met een mes. Het werkt, maar het is niet slim of efficiënt.

4. Wat betekent dit voor de toekomst?

De onderzoekers geven twee adviezen:

Voor de robotbouwers (onderzoekers): Je moet de robots meer laten oefenen met de specifieke bouwstijlen (React, Vue, Angular) en hen leren om "sjablonen" te gebruiken in plaats van alles handmatig te maken.
Voor de mensen die de robots gebruiken (ontwikkelaars):
- Wees niet te vaag. Zeg niet "maak het mooier", maar "verander de knop in de hoek".
- Als je een fout wilt laten repareren, geef dan aan waar de fout zit. Laat de robot niet raden.
- Breek grote taken op in kleine stukjes. Vraag niet om een heel complex gebouw in één keer, maar bouw het kamer voor kamer.

Kortom: DesignBench laat zien dat AI's al indrukwekkend zijn in het bouwen van websites, maar ze zijn nog niet klaar voor de complexe, echte wereld van professionele webontwikkeling. Ze moeten nog leren om precies te zijn, fouten te vinden en slimme, herbruikbare patronen te gebruiken.

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

1. Het Probleem: De oude tests waren te makkelijk

2. De Testbaan: 900 huizen in 3 stijlen

3. De Resultaten: De robot is slim, maar nog niet perfect

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: DesignBench

Belangrijkste Bijdragen

Resultaten en Kerninzichten

Significantie en Implicaties

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

1. Het Probleem: De oude tests waren te makkelijk

2. De Testbaan: 900 huizen in 3 stijlen

3. De Resultaten: De robot is slim, maar nog niet perfect

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: DesignBench

Belangrijkste Bijdragen

Resultaten en Kerninzichten

Significantie en Implicaties

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents