WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe app of website hebt gebouwd. Je wilt weten of hij goed werkt, of hij mooi is en of hij doet wat de klant wilde. Vroeger huurde je daarvoor een team van menselijke experts voor in, maar dat is duur, traag en lastig te schalen.

Nu hebben we slimme computers (LLMs) die dit werk voor ons kunnen doen. Ze fungeren als een rechter die oordeelt of een website goed is. Maar hoe goed zijn die digitale rechters eigenlijk? Kunnen ze net zo goed oordelen als een mens, vooral als het gaat om complexe, interactieve websites?

Dit is het verhaal van WEBDEVJUDGE, een nieuwe test die precies dat onderzoekt.

1. De Grote Uitdaging: De Digitale Rechter

Stel je voor dat je twee verschillende versies van een boekbesprekingssite hebt. De ene is gemaakt door Model A, de andere door Model B.

De menselijke rechter: Kijkt naar de site, klikt op de knoppen, leest de tekst en zegt: "Model A is beter omdat de knoppen makkelijker te vinden zijn."
De digitale rechter (LLM): Kijkt naar de code en de screenshots en moet een oordeel vellen.

Het probleem is dat deze digitale rechters vaak vastlopen in complexe situaties. Ze zijn geweldig in simpele taken (zoals "is er een rode knop?"), maar falen vaak bij dingen die verandering en interactie vereisen.

2. De Testbaan: WEBDEVJUDGE

De auteurs van dit paper hebben een enorme testbaan gebouwd, genaamd WEBDEVJUDGE.

De "Vergelijkingsarena": Ze hebben duizenden voorbeelden verzameld waar twee websites naast elkaar staan.
De "Gouden Standaard": Menselijke experts hebben deze websites beoordeeld met een heel streng en gedetailleerd scorebord (een rubric). Dit scorebord is als een recept: het zegt niet alleen "maak een taart", maar "de taart moet 3 lagen hebben, de glazuur moet glad zijn, en de bessen moeten vers zijn".
De Test: Vervolgens laten ze de digitale rechters (zoals GPT-4, Claude, en andere AI-modellen) deze websites beoordelen en kijken ze of hun oordeel overeenkomt met dat van de menselijke experts.

3. De Verbluffende Resultaten: De Digitale Rechter valt flink door de mand

De uitkomsten zijn verrassend en een beetje zorgwekkend:

De kloof is groot: De beste digitale rechters halen ongeveer 70% overeenstemming met de menselijke experts. Dat klinkt hoog, maar in de wereld van AI betekent dit dat ze in 1 op de 3 gevallen een verkeerd oordeel vellen. Mensen doen dit veel beter.
Vergelijken werkt beter dan scoren: Als je de AI vraagt om twee websites direct met elkaar te vergelijken ("Welke is beter?"), doen ze het beter dan als je ze vraagt om elke website apart een cijfer te geven (zoals een 7 of een 8). Het lijkt erop dat AI's beter zijn in het zeggen "deze is beter dan die" dan in het zeggen "dit is een 7".
Agenten zijn niet de oplossing: Sommige mensen dachten: "Laten we de AI een robot-uitvoerder geven die echt op de site klikt en test!" (een agentic workflow). Maar dit bleek juist slechter te werken. Waarom? Omdat de robot vaak vastloopt of een knop mist, en dan denkt dat de website kapot is, terwijl hij het gewoon niet goed heeft gevonden. Het is alsof je een blindeman de opdracht geeft om een schilderij te beoordelen door er tegenaan te lopen; hij struikelt en denkt dat het schilderij slecht is.

4. Waarom Lukt het Ze Niet? (De Zwakke Plekken)

De onderzoekers hebben gekeken waar de digitale rechters precies falen:

Ze zijn te letterlijk: Stel, de opdracht was: "Maak een knop met de tekst 'Start'". De website heeft een knop met de tekst 'Begin'. Een mens denkt: "Ah, dat is hetzelfde." De AI denkt vaak: "Fout! Het woord is niet 'Start'." Ze begrijpen niet dat functie belangrijker is dan woorden.
Ze zien niet of iets werkt: Als een AI alleen naar de code kijkt, denkt hij vaak dat alles werkt. Als hij de site echt moet bezoeken (interactief), mist hij vaak knoppen of denkt hij dat iets niet werkt omdat hij zelf niet goed kan navigeren.
Voorkeur voor de eerste optie: Soms kiezen ze zomaar voor het eerste voorbeeld dat ze zien, puur omdat het eerst komt, niet omdat het beter is.

5. De Conclusie: Nog Even Geduld

De boodschap van dit paper is helder: We kunnen nog niet volledig vertrouwen op AI om te oordelen over complexe, interactieve software.

Het is alsof we een beginnende kok hebben die een recept kan lezen, maar nog niet goed kan proeven of snijden. We moeten nog veel leren over hoe we deze digitale rechters slimmer kunnen maken, zodat ze niet alleen naar de code kijken, maar ook begrijpen wat de gebruiker eigenlijk wil.

Kort samengevat:
WEBDEVJUDGE is de "rijbewijstest" voor AI-rechters. De test laat zien dat ze nog niet rijvaardig genoeg zijn om alleen te rijden in het drukke verkeer van moderne websites. Ze hebben nog veel meer training nodig voordat ze menselijke experts kunnen vervangen.

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

1. De Grote Uitdaging: De Digitale Rechter

2. De Testbaan: WEBDEVJUDGE

3. De Verbluffende Resultaten: De Digitale Rechter valt flink door de mand

4. Waarom Lukt het Ze Niet? (De Zwakke Plekken)

5. De Conclusie: Nog Even Geduld

Probleemstelling

Methodologie: WEBDEVJUDGE

Belangrijkste Bijdragen

Resultaten en Bevindingen

Betekenis en Conclusie

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

1. De Grote Uitdaging: De Digitale Rechter

2. De Testbaan: WEBDEVJUDGE

3. De Verbluffende Resultaten: De Digitale Rechter valt flink door de mand

4. Waarom Lukt het Ze Niet? (De Zwakke Plekken)

5. De Conclusie: Nog Even Geduld

Probleemstelling

Methodologie: WEBDEVJUDGE

Belangrijkste Bijdragen

Resultaten en Bevindingen

Betekenis en Conclusie

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas