Go-Browse: Training Web Agents with Structured Exploration

Das Paper stellt Go-Browse vor, eine Methode zur effizienten, graphbasierten strukturierten Erkundung von Webseiten zur Sammlung eines großen Datensatzes, mit dem ein 7B-Parameter-Modell auf dem WebArena-Benchmark einen neuen State-of-the-Art für Modelle unter 10B Parametern erreicht.

Apurva Gandhi, Graham Neubig

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem Roboter die Aufgabe, im Internet etwas Bestimmtes zu finden oder zu tun – zum Beispiel: „Kaufe ein bestimmtes Paar Schuhe in Größe 42 und lege es in den Warenkorb."

Das Problem ist: Die meisten dieser Roboter (die sogenannten „Web-Agenten") sind wie Touristen, die in einer fremden Stadt ohne Karte und ohne Sprachkenntnisse gelandet sind. Sie wissen nicht, welche Straße sie nehmen müssen, um zum Ziel zu kommen. Sie rennen oft ziellos herum, verirren sich oder geben frustriert auf.

Die Forscher von Carnegie Mellon University haben eine Lösung namens GO-BROWSE entwickelt. Hier ist eine einfache Erklärung, wie es funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter ohne Landkarte

Bisher haben Roboter versucht, das Internet zu lernen, indem sie entweder:

  • Zufällig herumlaufen: Wie ein Betrunkener, der durch eine Stadt torkelt und hofft, dass er zufällig am richtigen Ort ankommt. (Das nennt man „Interaktion-first").
  • Nach Anweisungen suchen: Sie bekommen eine Liste von Aufgaben, versuchen sie aber nur auf der Startseite zu lösen, ohne zu wissen, dass die Antwort eigentlich auf Seite 50 versteckt ist. (Das nennt man „Instruction-first").

Beide Methoden sind ineffizient. Der Roboter lernt nicht wirklich, wie man durch ein komplexes Gebäude navigiert.

2. Die Lösung: GO-BROWSE – Der erfahrene Stadtplaner

GO-BROWSE ist wie ein sehr cleverer Stadtplaner, der eine neue Stadt (eine Website) systematisch kartiert, bevor er den Touristen losschickt.

Stellen Sie sich das so vor:

  • Die Stadt (Die Website): Jede Webseite ist ein Zimmer in einem riesigen, verworrenen Schloss.
  • Die Karte (Der Graph): GO-BROWSE baut sich eine digitale Landkarte. Jedes Zimmer, das es betritt, wird auf der Karte markiert.
  • Der Taktik-Trick (Reset & Explore): Das ist der geniale Teil. Wenn der Roboter ein neues, interessantes Zimmer findet (eine neue Unterseite), merkt er sich den Weg dorthin. Beim nächsten Mal „setzt" er den Roboter direkt in dieses Zimmer ab, statt ihn wieder vom Eingang aus starten zu lassen.

Die Analogie:
Stellen Sie sich vor, Sie lernen ein Labyrinth.

  • Der alte Weg: Sie laufen immer wieder vom Eingang los. Wenn Sie eine Sackgasse finden, laufen Sie den ganzen Weg zurück zum Eingang und versuchen es nochmal. Das ist langweilig und langsam.
  • GO-BROWSE: Sie finden einen wichtigen Abzweig im Labyrinth. Sie markieren ihn auf Ihrer Karte. Beim nächsten Training setzen Sie den Roboter direkt an diesen Abzweig. Von dort aus erkundet er nur den neuen Bereich. So lernt er viel schneller, wie das Labyrinth aufgebaut ist, ohne immer wieder den gleichen Weg vom Eingang zurücklegen zu müssen.

3. Wie GO-BROWSE Daten sammelt (Der Dreischritt)

GO-BROWSE nutzt drei kleine Helfer, die wie ein Team arbeiten:

  1. Der Entdecker (NavExplorer): Dieser Roboter läuft durch die aktuellen Räume und sucht nach Türen zu neuen Räumen. Er denkt: „Hey, dieser Link hier führt zu einem neuen Bereich! Das ist wichtig, wir müssen dorthin gehen." Er erstellt eine Aufgabe: „Gehe zu dieser neuen Seite."
  2. Der Lokale (PageExplorer): Dieser Roboter schaut sich das aktuelle Zimmer genau an. Er denkt: „Was kann man hier tun? Kann man hier etwas kaufen? Kann man etwas filtern?" Er erstellt Aufgaben wie: „Zeige mir alle Produkte über 50 Euro."
  3. Der Prüfer (FeasibilityChecker): Bevor diese Aufgaben in die Trainingsdaten aufgenommen werden, prüft ein sehr starker Roboter (ein „Schiedsrichter"), ob die Aufgabe überhaupt lösbar ist. Wenn die Aufgabe zu schwer oder unmöglich ist, wird sie verworfen. Nur die guten, lösbaren Aufgaben bleiben übrig.

4. Das Ergebnis: Ein besserer Roboter

Durch diese Methode haben die Forscher eine riesige Bibliothek von erfolgreichen Wegen durch das Internet gesammelt (10.000 erfolgreiche Aufgaben).

Als sie einen kleinen KI-Modell (mit 7 Milliarden Parametern) auf diesen Daten trainierten, passierte etwas Wunderbares:

  • Der kleine Roboter wurde plötzlich besser als der riesige, teure „GPT-4o Mini" von OpenAI.
  • Er konnte Aufgaben lösen, bei denen er tief in die Struktur der Websites eintauchen musste (wie das Editieren von spezifischen Produktdetails), was andere Roboter oft nicht schafften.

Zusammenfassung in einem Satz

GO-BROWSE ist wie ein Lehrer, der einem Schüler nicht nur sagt „Lies das Buch", sondern ihm erst eine detaillierte Landkarte des Buches zeichnet, ihn an die wichtigsten Kapitel setzt und ihm zeigt, wie man von einem Kapitel zum nächsten kommt, damit er das Buch wirklich versteht und nicht nur zufällig blättert.

Warum ist das wichtig?
Es zeigt, dass wir KI-Agenten nicht unbedingt mit immer größeren und teureren Modellen brauchen müssen. Wenn wir ihnen die richtige Art beibringen, ihre Umgebung zu erkunden (durch strukturierte Exploration statt zufälliges Herumlaufen), können auch kleinere, günstigere Modelle echte Wunder vollbringen.