WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

Dit paper introduceert WebDevJudge, een systematische benchmark voor het evalueren van de betrouwbaarheid van (multi-modale) LLM's als beoordelaars voor webdevelopmentkwaliteit, waarbij wordt aangetoond dat er een aanzienlijke kloof bestaat tussen deze modellen en menselijke experts door fundamentele beperkingen in het herkennen van functionele equivalentie en het verifiëren van taakhaalbaarheid.

Chunyang Li, Yilun Zheng, Xinting Huang, Tianqing Fang, Jiahao Xu, Lihui Chen, Yangqiu Song, Han Hu

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe app of website hebt gebouwd. Je wilt weten of hij goed werkt, of hij mooi is en of hij doet wat de klant wilde. Vroeger huurde je daarvoor een team van menselijke experts voor in, maar dat is duur, traag en lastig te schalen.

Nu hebben we slimme computers (LLMs) die dit werk voor ons kunnen doen. Ze fungeren als een rechter die oordeelt of een website goed is. Maar hoe goed zijn die digitale rechters eigenlijk? Kunnen ze net zo goed oordelen als een mens, vooral als het gaat om complexe, interactieve websites?

Dit is het verhaal van WEBDEVJUDGE, een nieuwe test die precies dat onderzoekt.

1. De Grote Uitdaging: De Digitale Rechter

Stel je voor dat je twee verschillende versies van een boekbesprekingssite hebt. De ene is gemaakt door Model A, de andere door Model B.

  • De menselijke rechter: Kijkt naar de site, klikt op de knoppen, leest de tekst en zegt: "Model A is beter omdat de knoppen makkelijker te vinden zijn."
  • De digitale rechter (LLM): Kijkt naar de code en de screenshots en moet een oordeel vellen.

Het probleem is dat deze digitale rechters vaak vastlopen in complexe situaties. Ze zijn geweldig in simpele taken (zoals "is er een rode knop?"), maar falen vaak bij dingen die verandering en interactie vereisen.

2. De Testbaan: WEBDEVJUDGE

De auteurs van dit paper hebben een enorme testbaan gebouwd, genaamd WEBDEVJUDGE.

  • De "Vergelijkingsarena": Ze hebben duizenden voorbeelden verzameld waar twee websites naast elkaar staan.
  • De "Gouden Standaard": Menselijke experts hebben deze websites beoordeeld met een heel streng en gedetailleerd scorebord (een rubric). Dit scorebord is als een recept: het zegt niet alleen "maak een taart", maar "de taart moet 3 lagen hebben, de glazuur moet glad zijn, en de bessen moeten vers zijn".
  • De Test: Vervolgens laten ze de digitale rechters (zoals GPT-4, Claude, en andere AI-modellen) deze websites beoordelen en kijken ze of hun oordeel overeenkomt met dat van de menselijke experts.

3. De Verbluffende Resultaten: De Digitale Rechter valt flink door de mand

De uitkomsten zijn verrassend en een beetje zorgwekkend:

  • De kloof is groot: De beste digitale rechters halen ongeveer 70% overeenstemming met de menselijke experts. Dat klinkt hoog, maar in de wereld van AI betekent dit dat ze in 1 op de 3 gevallen een verkeerd oordeel vellen. Mensen doen dit veel beter.
  • Vergelijken werkt beter dan scoren: Als je de AI vraagt om twee websites direct met elkaar te vergelijken ("Welke is beter?"), doen ze het beter dan als je ze vraagt om elke website apart een cijfer te geven (zoals een 7 of een 8). Het lijkt erop dat AI's beter zijn in het zeggen "deze is beter dan die" dan in het zeggen "dit is een 7".
  • Agenten zijn niet de oplossing: Sommige mensen dachten: "Laten we de AI een robot-uitvoerder geven die echt op de site klikt en test!" (een agentic workflow). Maar dit bleek juist slechter te werken. Waarom? Omdat de robot vaak vastloopt of een knop mist, en dan denkt dat de website kapot is, terwijl hij het gewoon niet goed heeft gevonden. Het is alsof je een blindeman de opdracht geeft om een schilderij te beoordelen door er tegenaan te lopen; hij struikelt en denkt dat het schilderij slecht is.

4. Waarom Lukt het Ze Niet? (De Zwakke Plekken)

De onderzoekers hebben gekeken waar de digitale rechters precies falen:

  1. Ze zijn te letterlijk: Stel, de opdracht was: "Maak een knop met de tekst 'Start'". De website heeft een knop met de tekst 'Begin'. Een mens denkt: "Ah, dat is hetzelfde." De AI denkt vaak: "Fout! Het woord is niet 'Start'." Ze begrijpen niet dat functie belangrijker is dan woorden.
  2. Ze zien niet of iets werkt: Als een AI alleen naar de code kijkt, denkt hij vaak dat alles werkt. Als hij de site echt moet bezoeken (interactief), mist hij vaak knoppen of denkt hij dat iets niet werkt omdat hij zelf niet goed kan navigeren.
  3. Voorkeur voor de eerste optie: Soms kiezen ze zomaar voor het eerste voorbeeld dat ze zien, puur omdat het eerst komt, niet omdat het beter is.

5. De Conclusie: Nog Even Geduld

De boodschap van dit paper is helder: We kunnen nog niet volledig vertrouwen op AI om te oordelen over complexe, interactieve software.

Het is alsof we een beginnende kok hebben die een recept kan lezen, maar nog niet goed kan proeven of snijden. We moeten nog veel leren over hoe we deze digitale rechters slimmer kunnen maken, zodat ze niet alleen naar de code kijken, maar ook begrijpen wat de gebruiker eigenlijk wil.

Kort samengevat:
WEBDEVJUDGE is de "rijbewijstest" voor AI-rechters. De test laat zien dat ze nog niet rijvaardig genoeg zijn om alleen te rijden in het drukke verkeer van moderne websites. Ze hebben nog veel meer training nodig voordat ze menselijke experts kunnen vervangen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →