WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Das Paper stellt WebGym vor, eine bisher größte Open-Source-Umgebung mit fast 300.000 realistischen Web-Aufgaben, die durch ein skalierbares Reinforcement-Learning-Verfahren dazu führt, dass ein auf Qwen-3-VL-8B-Instruct basierender Agent bei der Bewältigung bisher unbekannter Webseiten signifikant besser abschneidet als proprietäre Modelle wie GPT-4o und GPT-5-Thinking.

Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead

Veröffentlicht 2026-02-27
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, den Internet-Dschungel zu durchqueren. Bisher war das wie ein Kinderspielplatz: Der Roboter durfte nur auf simplen, künstlichen Websites herumlaufen, die immer gleich aussahen. Wenn man ihn dann auf eine echte, chaotische Website wie Amazon oder eine Nachrichtenplattform stellte, fiel er sofort in Ohnmacht, weil er die echten Hindernisse nicht kannte.

Das Paper „WebGym" von Microsoft, UIUC und CMU stellt eine Revolution dar. Es ist im Grunde ein riesiger, realistischer Fitnessstudio-Komplex für KI-Agenten, der sie darauf vorbereitet, das echte Internet zu meistern.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem: Der „Fake-Trainingsplatz"

Bisher trainierte man KI-Agenten auf kleinen, künstlichen Datensätzen. Das ist so, als würde man einen Fußballspieler nur auf einem leeren, flachen Feld mit statischen Pylonen trainieren. Er lernt, den Ball zu treten, aber wenn er dann in ein echtes Stadion mit 80.000 Zuschauern, Regen und taktischen Spielen kommt, weiß er nicht, was er tun soll.

Die alten Trainingsaufgaben waren zu einfach und zu kurz. Wenn die KI auf eine echte Website traf, die sich ständig ändert (weil Produkte verkauft werden, Layouts sich ändern), war sie verloren.

2. Die Lösung: WebGym – Das „Internet-Fitnessstudio"

Die Forscher haben WebGym gebaut. Das ist keine kleine Übungshalle, sondern ein riesiges Stadion mit fast 300.000 verschiedenen Aufgaben.

  • Die Vielfalt (Breadth): Statt nur auf 10 Websites zu trainieren, hat WebGym über 127.000 verschiedene Websites. Das ist wie ein Trainer, der seinen Schüler nicht nur in einer Stadt, sondern auf der ganzen Welt durch verschiedene Länder, Kulturen und Verkehrssysteme schickt.
  • Die Schwierigkeit (Depth): Die Aufgaben reichen von „Wo ist der Supermarkt?" (einfach) bis hin zu „Vergleiche die Preise von drei verschiedenen Laptops auf drei verschiedenen Seiten und finde den besten Deal unter Berücksichtigung der Versandkosten" (sehr schwer).
  • Der Trick mit dem Zerlegen: Wie schafft man so viele Aufgaben? Sie nehmen eine schwere Aufgabe (z. B. „Finde alle Informationen über ein Konzert") und zerlegen sie mit Hilfe einer KI in kleinere Stücke (Fakt-Gruppen).
    • Analogie: Stellen Sie sich vor, Sie wollen einen riesigen Kuchen backen. Das ist schwer. WebGym zerlegt das Rezept in kleine Schritte: „Eier schlagen", „Mehl mischen". Der Roboter lernt erst die kleinen Schritte, dann kombiniert er sie zum ganzen Kuchen. So lernt er schneller und gründlicher.

3. Der Motor: Der „Asynchrone Rollout"-Motor

Das größte Problem beim Training von Web-Agenten ist die Geschwindigkeit. Ein Roboter muss eine Website aufrufen, warten, klicken, warten, warten... Das dauert ewig. Wenn man 100 Roboter gleichzeitig trainiert, warten die schnellen auf die langsamen, wie ein Zug, bei dem alle warten müssen, bis der Langsamste eingestiegen ist.

WebGym hat einen asynchronen Motor gebaut.

  • Analogie: Stellen Sie sich eine Flotte von Lieferwagen vor. In der alten Methode (synchron) warten alle an der Ampel, bis die langsamste Ampel grün wird. In WebGym (asynchron) fährt jeder Lieferwagen los, sobald er bereit ist. Wenn einer schneller ist, macht er schon die nächste Lieferung, während der andere noch an der Ampel steht.
  • Ergebnis: Das Training ist 4- bis 5-mal schneller. Die Computer werden nicht mehr durch Warten verschwendet, sondern arbeiten rund um die Uhr voll ausgelastet.

4. Der Lerneffekt: Lernen durch „Verstehen" statt nur „Auswendiglernen"

Die Forscher haben die KI (ein Modell namens Qwen3-VL) mit diesem neuen System trainiert. Hier sind die wichtigsten Erkenntnisse:

  • Gedächtnis ist alles: Bei langen Aufgaben (z. B. „Finde das billigste Flugticket, aber vergiss nicht, dass wir nur bis 500€ Budget haben") vergisst die KI oft, was sie vor 10 Schritten gesehen hat. WebGym zwingt die KI, sich eine kurze Zusammenfassung (Gedächtnis) zu schreiben, bevor sie weitermacht. Das ist wie ein Notizblock für den Roboter.
  • Kein „Stuck"-Verhalten: Oft hängen Roboter fest und klicken immer wieder auf denselben Button, als wären sie in einer Schleife gefangen. WebGym bestraft dieses Verhalten. Wenn die KI denselben Bildschirm sieht und nichts passiert, lernt sie: „Hey, das bringt nichts, probiere etwas Neues!"
  • Echte Bewertung: Die KI wird nicht nur danach bewertet, ob sie am Ende eine Antwort gibt, sondern ob ihre Antwort wahr ist. Ein KI-Richter prüft genau: „Hat der Roboter wirklich gesehen, was er behauptet, oder hat er sich das nur ausgedacht?" (Halluzinationen werden bestraft).

5. Das Ergebnis: Ein kleiner Held schlägt die Riesen

Das Erstaunlichste: Sie haben eine kleine, offene KI (Qwen3-VL-8B) trainiert, die viel weniger Rechenleistung braucht als die riesigen Modelle von Google oder OpenAI.

  • Das Ergebnis: Diese kleine, trainierte KI schlug auf dem Test (mit völlig neuen, unbekannten Websites) sogar die GPT-4o und GPT-5 Modelle von OpenAI.
  • Die Erfolgsquote: Sie stieg von 26 % (ohne Training) auf 42,9 %. Das ist ein riesiger Sprung.

Zusammenfassung in einem Satz

WebGym ist wie ein riesiges, realistisches Trainingslager mit einem ultraschnellen Logistiksystem, das kleine KI-Modelle so hart und vielfältig trainiert, dass sie am Ende besser durch das echte Internet navigieren können als die teuersten, größten KI-Riesen der Welt.

Es zeigt uns: Es geht nicht nur darum, wie groß das Gehirn der KI ist, sondern darum, wie gut und realistisch der Trainingsplatz ist, auf dem sie lernt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →