WebDS: An End-to-End Benchmark for Web-based Data Science

Dit paper introduceert WebDS, het eerste end-to-end benchmark voor webgebaseerde datawetenschap dat agenten test op complexe, multi-stap taken over diverse websites en een aanzienlijke prestatiekloof tussen huidige LLM-agenten en menselijke vaardigheden blootlegt.

Ethan Hsu, Hong Meng Yam, Ines Bouissou, Aaron Murali John, Raj Thota, Josh Koe, Vivek Sarath Putta, G K Dharesan, Alexander Spangher, Shikhar Murty, Tenghao Huang, Christopher D. Manning

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

WebDS: De "Echte Wereld" Test voor Digitale Data-Detectives

Stel je voor dat je een zeer slimme, digitale assistent hebt die alles kan lezen op internet. Hij kan websites bezoeken, cijfers vinden en zelfs rapporten schrijven. Maar is hij ook echt slim genoeg om een data-analist te spelen? Dat is de vraag die dit nieuwe onderzoek, genaamd WebDS, probeert te beantwoorden.

Hier is een uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De "Speeltuin" vs. De "Dwarsstraat"

Tot nu toe hebben we AI-agenten getest in twee soorten omgevingen:

  • De Speeltuin (Bestaande web-tests): Dit zijn simpele taken, zoals "Ga naar Reddit en schrijf een bericht" of "Koop een boek". Het is alsof je een kind laat rennen in een veilige speeltuin. Het is leuk, maar het leert je niet hoe je overleeft in de echte wereld.
  • De Werkbank (Bestaande data-tests): Hier moet de AI met strakke tabellen in een computerprogramma werken. Het is alsof je een kok vraagt om een gerecht te maken, maar je geeft hem alleen een recept en geen ingrediënten om te zoeken.

Het probleem: In het echte leven moet een data-analist eerst op zoek naar de ingrediënten (data) op verschillende websites, ze samenvoegen, ze schoonmaken, en dan pas het gerecht (het rapport) maken. De oude tests keken niet naar dit hele proces.

2. De Oplossing: WebDS (De "Obstakelbaan")

De onderzoekers hebben WebDS bedacht. Dit is de eerste test die AI-agenten op een obstakelbaan zet die lijkt op het echte leven.

  • De Baan: In plaats van één simpele opdracht, krijgen de AI's 870 complexe taken. Ze moeten bijvoorbeeld: "Vind de bevolkingscijfers van een land op de overheidswebsite, ga naar een nieuwsartikel voor context, download een Excel-bestand, bereken het gemiddelde, en schrijf een adviesrapport voor een burgemeester."
  • De Locaties: De AI's moeten surfen over 29 verschillende websites, variërend van strenge overheidsportalen tot rommelige nieuwswebsites. Het is alsof je een detective vraagt om bewijs te vinden in een bibliotheek, een kelder en een marktkraam, allemaal tegelijk.

3. De Resultaten: De AI's Struikelen

Wat gebeurde er toen de slimste AI's (zoals die van Google en OpenAI) deze test deden?

  • De Teleurstelling: Het ging vreselijk mis. Een AI die op de oude "speeltuin-tests" 80% van de taken haalde, haalde op deze nieuwe baan slechts 15%.
  • De Menselijke Vergelijking: Mensen haalden 90%.
  • De Grootte van de Klap: Er is een enorm gat tussen wat de AI's nu kunnen en wat mensen kunnen. De AI's zijn als een Formule-1-auto die vastloopt in een modderpoel. Ze kunnen razendsnel rijden op een asfaltweg (oude tests), maar falen volledig als ze door modder (echte, rommelige data) moeten.

4. Waarom Lukt het Niet? (De "Valkuilen")

De onderzoekers keken waarom de AI's faalden. Ze ontdekten drie hoofdproblemen:

  1. Verlies van het Spoor (Grounding): De AI leest de juiste pagina, maar vergeet de belangrijke cijfers of verzonnen ze er zelf bij. Het is alsof een kok de ingrediënten ziet, maar dan toch een ander gerecht kookt dan gevraagd.
  2. In de Cirkel Draaien: Als een knop niet werkt, blijven de AI's diezelfde knop duwen, duwen, duwen... zonder te stoppen en een andere route te zoeken. Ze hebben geen "stop-en-denk"-mechanisme.
  3. Afkortingen nemen: In plaats van het moeilijke werk te doen (zoals een bestand downloaden en analyseren), proberen ze een makkelijk antwoord te "googelen" en hopen ze dat het goed komt. Dat werkt niet bij complexe data.

5. Waarom is dit Belangrijk?

WebDS is niet bedoeld om AI's te vernederen, maar om ze te trainen.

  • Het is als een simulator voor piloten. Je wilt niet dat een piloot voor het eerst vliegt in een echt vliegtuig met passagiers; je wilt dat ze eerst de zware stormen en storingen in een simulator overleven.
  • Door deze moeilijke test te hebben, weten onderzoekers precies waar ze moeten verbeteren. Ze moeten niet alleen de "hersenen" van de AI groter maken, maar vooral leren hoe de AI omgaat met rommelige websites, downloadknoppen en het samenvoegen van verschillende bronnen.

Kortom: WebDS is de nieuwe, eerlijke test die laat zien dat onze digitale assistenten nog niet klaar zijn om zelfstandig data-analisten te worden. Ze zijn slim, maar ze zijn nog niet "strategisch" of "aandachtig" genoeg voor de echte wereld. Met deze test hopen de onderzoekers dat we binnenkort AI's krijgen die niet alleen kunnen lezen, maar ook echt kunnen denken en werken in onze digitale wereld.