WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions

Het artikel introduceert WARC-Bench, een nieuw benchmark dat Web ARChive-bestanden gebruikt om multimodale AI-agenten te evalueren op complexe GUI-subtaken, en toont aan dat terwijl huidige frontlijnmodellen moeite hebben, open-sourcemodellen door middel van supervised fine-tuning en versterkingsleren met verifieerbare beloningen aanzienlijk verbeteren om concurrerende prestaties te behalen.

Oorspronkelijke auteurs: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

Gepubliceerd 2026-05-20✓ Author reviewed
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een robot leert om een computer te gebruiken. De meeste eerdere tests vroegen de robot om één van twee dingen te doen: ofwel op één enkele knop op een scherm te wijzen ("Klik op de rode knop") ofwel een enorme, complexe reis te plannen ("Boek een vakantie voor een gezin van vier, inclusief vluchten, hotels en autoverhuur, allemaal onder de 2.000 dollar").

De auteurs van dit artikel realiseerden zich dat er een enorm gat in het midden zat. Ze merkten op dat voordat een robot die vakantie kan boeken, het eerst de kleine, lastige stappen in between moet beheersen: door een lijst scrollen om een specifieke datum te vinden, een schuifregelaar slepen om een budget aan te passen, of een formulier invullen zonder per ongeluk de tekst die er al stond te verwijderen. Ze noemen deze "GUI-subtaken."

Hier is een eenvoudige uiteenzetting van hun werk, WARC-Bench:

1. Het Probleem: Het "Ontbrekende Midden"

Denk aan een complexe webtaak als het bakken van een cake.

  • Visuele Verankering: "Pak het ei op." (Te simpel).
  • Navigatie op Lange Termijn: "Bak een cake, beslaan deze en lever deze af bij een feestje." (Te complex, te veel variabelen).
  • Het Ontbrekende Midden: "Breek het ei in de kom zonder dat er schaal in komt," of "Klop het beslag tot het glad is."

De auteurs betogen dat huidige AI-robots falen bij deze "middenstappen". Ze weten misschien wat een cake is, maar ze worstelen met de specifieke, klierige mechaniek van de keukengereedschappen.

2. De Oplossing: Een "Tijdstijgende" Testkeuken

Om deze robots te testen, bouwde het team WARC-Bench.

Meestal is het testen van robots op het echte internet chaotisch. Websites veranderen, pop-ups verschijnen en servers crashten. Om dit op te lossen, gebruikte het team WARC-bestanden (Webarchieven).

  • De Analogie: Stel je voor dat je een perfect, bevroren momentopname van een website op een specifiek moment in de tijd maakt, inclusief al zijn knoppen, scripts en afbeeldingen. Je plaatst deze momentopname in een "tijdcapsule".
  • Hoe het werkt: Wanneer ze een robot testen, sturen ze deze niet naar het live internet. Ze sturen deze naar deze "tijdcapsule". De robot interacteert met deze bevroren, perfecte kopie van de website. Het is als een vluchtsimulator voor webbrowsers: veilig, herhaalbaar en elke keer precies hetzelfde.

Ze creëerden 438 verschillende "mini-uitdagingen" in deze simulator, zoals "Selecteer 21 maart op de kalender" of "Scroll naar beneden om de prijs te vinden".

3. De Resultaten: Zelfs de "Slimste" Robots Worstelen

Ze testten 's werelds meest geavanceerde AI-modellen (zoals Claude 4.0 en GPT-5) op deze mini-uitdagingen.

  • De Realiteitscheck: Zelfs de slimste robots haalden slechts ongeveer 65% van deze eenvoudige taken goed.
  • De Analogie: Het is alsof je een briljant mens een test geeft waarbij ze een specifieke knoop moeten leggen of een belastingformulier moeten invullen. Zelfs slimme mensen maken fouten als de instructies lastig zijn of de interface verwarrend. De robots falen erin om de "sfeer" van de website te "lezen".

4. De Oplossing: Trainen met "Videospellen"

De auteurs wilden zien of ze open-source robots (die meestal zwakker zijn) konden leren om beter te worden. Ze gebruikten twee trainingsmethoden:

  1. Supervised Fine-Tuning (SFT): De robot duizenden voorbeelden tonen van mensen die deze taken succesvol uitvoeren, zoals een student een opgelost wiskundeprobleem laten zien.
  2. Reinforcement Learning met Verifieerbare Beloningen (RLVR): Dit is als een videospel. Ze laten de robot de taak proberen. Als het slaagt, krijgt het een "punt" (beloning). Als het faalt, krijgt het nul punten. De robot leert door duizenden spellen te spelen, beseffend: "Oh, ik klikte de verkeerde knop de vorige keer, dat moet ik niet opnieuw doen."

Het Resultaat:
Door deze "videospel"-trainingsmethode te gebruiken op synthetische (nep maar realistische) websites, sprong hun open-source model van een lage score naar 52,3%. Dit is indrukwekkend omdat het veel van de dure, gesloten-bron "superhersenen" versloeg op deze specifieke taken.

5. Waarom Dit Belangrijk Is

Het artikel concludeert dat als je wilt dat een robot goed is in de grote, complexe banen (zoals die vakantie boeken), je eerst moet zorgen dat het goed is in de kleine, saaie banen (zoals op de juiste datum klikken).

Ze ontdekten dat het vermogen van een robot om deze kleine, specifieke subtaken te hanteren, een zeer sterke voorspeller is van hoe goed het de grote, complexe taken zal aanpakken. Als een robot niet door een dropdown-menu kan navigeren, zal het waarschijnlijk ook niet in staat zijn om een reis te plannen.

Kortom: De auteurs bouwden een veilige, tijdsbevroren speeltuin om te testen hoe goed robots de kleine, lastige details van het gebruik van een website aankunnen. Ze ontdekten dat zelfs de beste robots slecht zijn in deze details, maar dat ze getraind kunnen worden om veel beter te worden door "videospellen" te spelen waarbij ze punten krijgen als ze het goed doen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →