WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Het paper introduceert WebGym, het grootste open-source trainingsomgeving voor visuele webagenten tot nu toe, die door middel van schaalbaar reinforcement learning op bijna 300.000 realistische taken een open-source model (Qwen-3-VL-8B) aanzienlijk beter presteert dan gesloten modellen zoals GPT-4o en GPT-5 op onbekende websites.

Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een computer wilt leren om zelfstandig te surfen op het internet, net zoals jij dat doet. Je wilt dat hij voor jou een treinreis boekt, een specifiek product vindt in een online winkel, of informatie zoekt over een gebeurtenis. Dit noemen we een "visuele web-agent". De computer kijkt dan niet naar de code van de website, maar naar de schermfoto's (screenshots), precies zoals een mens dat doet.

Het probleem is dat deze slimme computers vaak vastlopen. Ze weten niet hoe ze moeten handelen als een website verandert, of ze blijven in een cirkel ronddraaien zonder iets te bereiken.

De auteurs van dit paper hebben een oplossing bedacht genaamd WebGym. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gym" (De Trainingszaal)

Stel je voor dat je een atleet wilt trainen. Als je hem alleen maar laat rennen op een rechte, saaie baan in een lege zaal, zal hij niet klaar zijn voor een echte marathon in een drukke stad.

  • Het oude probleem: Eerdere trainingsprogramma's waren zoals die lege zaal. Ze gaven de computer simpele taken op nep-websites. De computer leerde daar wel iets van, maar faalde als hij op een echte, chaotische website terechtkwam.
  • WebGym is de echte stad: De onderzoekers hebben een enorme trainingsomgeving gebouwd met 300.000 verschillende taken op echte websites (zoals Amazon, nieuwsites, overheidsportalen). Het is een doolhof van moeilijkheden: van "vind de prijs van een schoen" (makkelijk) tot "plan een complexe reis met drie tussenstops en vind de beste deal" (erg moeilijk).
  • De "Rubriek" (De Scheidsrechter): In een echte sportwedstrijd heeft je een scheidsrechter die precies weet wat een doelpunt is. WebGym gebruikt slimme AI om voor elke taak een scheidsrechter te maken. Deze scheidsrechter kijkt niet alleen of het antwoord klopt, maar checkt stap voor stap of de computer de juiste dingen heeft gedaan (bijv. "Heeft hij echt naar de juiste pagina geklikt?" en "Heeft hij de juiste prijs gelezen?"). Dit voorkomt dat de computer "valstrikken" loopt of raadt.

2. De "Asynchrone" Sprint (Snelheid)

Het trainen van zo'n computer is normaal gesproken heel traag. Stel je voor dat je een groep leerlingen hebt die een taak moeten doen.

  • De oude manier (Synchroon): De leraar wacht tot iedereen klaar is met stap 1 voordat hij iedereen laat beginnen met stap 2. Als één leerling traag is, wachten de anderen en staat de hele klas stil. Dit is enorm inefficiënt.
  • De WebGym-methode (Asynchroon): De onderzoekers hebben een systeem gebouwd dat werkt als een goede kok in een drukke keuken. De chef (de computer) roept niet "Wacht tot iedereen klaar is". Nee, zodra één kok een bord heeft afgeleverd, krijgt hij direct de volgende opdracht. De "keukenpersoneel" (de servers) werken continu door zonder te wachten.
  • Het resultaat: Ze zijn 4 tot 5 keer sneller dan eerdere systemen. Ze kunnen in 30 minuten duizenden "proefrondes" draaien, terwijl andere systemen daar uren voor nodig hebben.

3. De Leerling (De AI)

Ze hebben een bestaande, slimme computer (een model genaamd Qwen3-VL) genomen en deze in WebGym laten trainen.

  • Het geheugen: De computer leerde dat hij niet alles uit het hoofd moet houden (dat is te veel werk), maar dat hij een korte notitie moet maken van wat hij al heeft gevonden. Dit is als een post-it op je scherm: "Ik heb al de prijs van de eerste schoen gevonden, nu zoek ik de tweede."
  • Stoppen met staren: Als de computer vastliep en bleef dezelfde knop indrukken, kregen ze een "boete" (een straf in het leerproces). Hierdoor leerde de computer snel om niet in een cirkel te draaien, maar door te gaan.

4. Het Resultaat: Een Super-Surfer

Na deze training gebeurde er iets magisch:

  • De computer, die voorheen maar in 26% van de gevallen een taak op een nieuwe, onbekende website kon oplossen, deed dit nu in 43% van de gevallen.
  • Dit is nog indrukwekkender omdat ze dit deden met een open-source model (gratis en openbaar), terwijl de duurste, gesloten modellen van grote tech-bedrijven (zoals GPT-4o en GPT-5) er maar rond de 27-30% scoorden.

Kortom:
WebGym is als een gymzaal voor internet-bots. Door ze te laten trainen op duizenden echte, moeilijke situaties met een strenge scheidsrechter en een super-snel trainingssysteem, zijn ze van "onhandige beginners" veranderd in "ervaren surfers" die zelfs betere resultaten boeken dan de duurste modellen die we nu hebben. Ze hebben bewezen dat je een slimme agent kunt maken door simpelweg meer en diverser te oefenen, in plaats van alleen maar de computer slimmer te maken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →