Go-Browse: Training Web Agents with Structured Exploration

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem Roboter die Aufgabe, im Internet etwas Bestimmtes zu finden oder zu tun – zum Beispiel: „Kaufe ein bestimmtes Paar Schuhe in Größe 42 und lege es in den Warenkorb."

Das Problem ist: Die meisten dieser Roboter (die sogenannten „Web-Agenten") sind wie Touristen, die in einer fremden Stadt ohne Karte und ohne Sprachkenntnisse gelandet sind. Sie wissen nicht, welche Straße sie nehmen müssen, um zum Ziel zu kommen. Sie rennen oft ziellos herum, verirren sich oder geben frustriert auf.

Die Forscher von Carnegie Mellon University haben eine Lösung namens GO-BROWSE entwickelt. Hier ist eine einfache Erklärung, wie es funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter ohne Landkarte

Bisher haben Roboter versucht, das Internet zu lernen, indem sie entweder:

Zufällig herumlaufen: Wie ein Betrunkener, der durch eine Stadt torkelt und hofft, dass er zufällig am richtigen Ort ankommt. (Das nennt man „Interaktion-first").
Nach Anweisungen suchen: Sie bekommen eine Liste von Aufgaben, versuchen sie aber nur auf der Startseite zu lösen, ohne zu wissen, dass die Antwort eigentlich auf Seite 50 versteckt ist. (Das nennt man „Instruction-first").

Beide Methoden sind ineffizient. Der Roboter lernt nicht wirklich, wie man durch ein komplexes Gebäude navigiert.

2. Die Lösung: GO-BROWSE – Der erfahrene Stadtplaner

GO-BROWSE ist wie ein sehr cleverer Stadtplaner, der eine neue Stadt (eine Website) systematisch kartiert, bevor er den Touristen losschickt.

Stellen Sie sich das so vor:

Die Stadt (Die Website): Jede Webseite ist ein Zimmer in einem riesigen, verworrenen Schloss.
Die Karte (Der Graph): GO-BROWSE baut sich eine digitale Landkarte. Jedes Zimmer, das es betritt, wird auf der Karte markiert.
Der Taktik-Trick (Reset & Explore): Das ist der geniale Teil. Wenn der Roboter ein neues, interessantes Zimmer findet (eine neue Unterseite), merkt er sich den Weg dorthin. Beim nächsten Mal „setzt" er den Roboter direkt in dieses Zimmer ab, statt ihn wieder vom Eingang aus starten zu lassen.

Die Analogie:
Stellen Sie sich vor, Sie lernen ein Labyrinth.

Der alte Weg: Sie laufen immer wieder vom Eingang los. Wenn Sie eine Sackgasse finden, laufen Sie den ganzen Weg zurück zum Eingang und versuchen es nochmal. Das ist langweilig und langsam.
GO-BROWSE: Sie finden einen wichtigen Abzweig im Labyrinth. Sie markieren ihn auf Ihrer Karte. Beim nächsten Training setzen Sie den Roboter direkt an diesen Abzweig. Von dort aus erkundet er nur den neuen Bereich. So lernt er viel schneller, wie das Labyrinth aufgebaut ist, ohne immer wieder den gleichen Weg vom Eingang zurücklegen zu müssen.

3. Wie GO-BROWSE Daten sammelt (Der Dreischritt)

GO-BROWSE nutzt drei kleine Helfer, die wie ein Team arbeiten:

Der Entdecker (NavExplorer): Dieser Roboter läuft durch die aktuellen Räume und sucht nach Türen zu neuen Räumen. Er denkt: „Hey, dieser Link hier führt zu einem neuen Bereich! Das ist wichtig, wir müssen dorthin gehen." Er erstellt eine Aufgabe: „Gehe zu dieser neuen Seite."
Der Lokale (PageExplorer): Dieser Roboter schaut sich das aktuelle Zimmer genau an. Er denkt: „Was kann man hier tun? Kann man hier etwas kaufen? Kann man etwas filtern?" Er erstellt Aufgaben wie: „Zeige mir alle Produkte über 50 Euro."
Der Prüfer (FeasibilityChecker): Bevor diese Aufgaben in die Trainingsdaten aufgenommen werden, prüft ein sehr starker Roboter (ein „Schiedsrichter"), ob die Aufgabe überhaupt lösbar ist. Wenn die Aufgabe zu schwer oder unmöglich ist, wird sie verworfen. Nur die guten, lösbaren Aufgaben bleiben übrig.

4. Das Ergebnis: Ein besserer Roboter

Durch diese Methode haben die Forscher eine riesige Bibliothek von erfolgreichen Wegen durch das Internet gesammelt (10.000 erfolgreiche Aufgaben).

Als sie einen kleinen KI-Modell (mit 7 Milliarden Parametern) auf diesen Daten trainierten, passierte etwas Wunderbares:

Der kleine Roboter wurde plötzlich besser als der riesige, teure „GPT-4o Mini" von OpenAI.
Er konnte Aufgaben lösen, bei denen er tief in die Struktur der Websites eintauchen musste (wie das Editieren von spezifischen Produktdetails), was andere Roboter oft nicht schafften.

Zusammenfassung in einem Satz

GO-BROWSE ist wie ein Lehrer, der einem Schüler nicht nur sagt „Lies das Buch", sondern ihm erst eine detaillierte Landkarte des Buches zeichnet, ihn an die wichtigsten Kapitel setzt und ihm zeigt, wie man von einem Kapitel zum nächsten kommt, damit er das Buch wirklich versteht und nicht nur zufällig blättert.

Warum ist das wichtig?
Es zeigt, dass wir KI-Agenten nicht unbedingt mit immer größeren und teureren Modellen brauchen müssen. Wenn wir ihnen die richtige Art beibringen, ihre Umgebung zu erkunden (durch strukturierte Exploration statt zufälliges Herumlaufen), können auch kleinere, günstigere Modelle echte Wunder vollbringen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Ein fundamentales Problem bei digitalen Agenten, insbesondere bei Web-Browsing-Agenten, ist das mangelnde Verständnis ihrer Umgebung. Selbst große vortrainierte Sprachmodelle (LLMs) wie GPT-4o oder GPT-4o-mini scheitern oft an GUI-basierten Web-Aufgaben, da sie in unbekannten Webseiten verloren gehen und nicht wissen, welche Seiten sie besuchen müssen, um ihre Ziele zu erreichen.

Lücke: Während menschliche Demonstrationsdaten qualitativ hochwertig sind, sind sie teuer und zeitaufwendig zu sammeln.
Herausforderung bei automatischen Methoden: Bestehende unüberwachte Methoden leiden entweder unter Ineffizienz (wiederholtes Besuchen derselben Seiten ohne Kontext) oder generieren Aufgaben, die nicht auf die spezifische Umgebung des Agenten zugeschnitten sind (z. B. generisches Wissen aus Tutorials, das nicht auf reale Webseiten übertragbar ist).

Methodik: GO-BROWSE

Die Autoren schlagen GO-BROWSE vor, eine Methode zur automatischen, skalierbaren Sammlung von Web-Agenten-Daten durch strukturierte Exploration. Der Kernansatz besteht darin, die Datensammlung als Graph-Suchproblem zu formulieren, um Informationen über verschiedene Explorationsepisoden hinweg wiederverwenden zu können.

Das System besteht aus einem Outer Loop (globale Abdeckung) und einem Inner Loop (lokale Exploration):

Graph-Struktur & Frontier:
- GO-BROWSE baut einen Graphen $G = (V, E)$ auf, wobei Knoten $V$ eindeutige URLs und Kanten $E$ Trajektorien zwischen ihnen sind.
- Eine Frontier (Grenze) verwaltet entdeckte, aber noch nicht vollständig erkundete Webseiten.
Inner Loop (Lokale Exploration pro Seite):
Für jede ausgewählte Seite in der Frontier werden drei Module eingesetzt:
- NavExplorer: Ein Web-Agent, der navigative Aufgaben vorschlägt, um zu benachbarten Seiten zu gelangen (Erweiterung des Graphen).
- PageExplorer: Ein Agent, der lokale Aufgaben für die aktuelle Seite vorschlägt (z. B. „Zeige alle Produkte über 50$").
- FeasibilityChecker: Filtert vorgeschlagene Aufgaben, indem ein starker Agent (z. B. Claude-3.7-Sonnet) versucht, die Aufgabe zu lösen, und ein VLM-as-a-judge (GPT-4o-basiert) prüft, ob die Lösung erfolgreich war. Nur machbare Aufgaben werden behalten.
- Solvers: Sammeln zusätzliche Trajektorien für die gefilterten Aufgaben. Hier wird ein entscheidendes Konzept eingeführt:
  - Prefixed Sampling: Der Agent löst die Aufgabe ausgehend von der bereits erreichten Seite (lokale Aufgabe).
  - Unprefixed Sampling: Der Agent muss die Aufgabe vom Root-Knoten (Startseite) aus lösen (globale Navigation + lokale Aufgabe).
Entkopplung von Navigation und Aufgabenlösung:
Durch das Zurücksetzen auf bereits entdeckte vielversprechende Webseiten (Reset-Strategie, inspiriert von Go-Explore) wird die Herausforderung der Web-Navigation von der lokalen Aufgabenlösung entkoppelt. Dies ermöglicht es auch schwächeren Modellen, hochwertige Daten zu generieren, da sie sich auf die Ausführung konzentrieren können, ohne erst den komplexen Pfad zur Seite finden zu müssen.

Datensammlung (GO-BROWSE-WA)

Umgebung: Das Framework wurde auf dem WebArena-Benchmark implementiert (5 Domänen: Shopping Admin, Shopping, Reddit, GitLab, Maps).
Umfang: Es wurden Daten über 100 verschiedene URLs gesammelt.
Statistik: Der Datensatz enthält ca. 10.000 erfolgreiche und 17.000 gescheiterte Trajektorien mit insgesamt ca. 40.000 Interaktionsschritten.
Kosten: Die Datensammlung kostete ca. 975 $.

Ergebnisse

Ein QWEN-2.5-7B-INSTRUCT-Modell wurde mittels überwachtem Fine-Tuning auf den erfolgreichen Trajektorien des GO-BROWSE-WA-Datensatzes trainiert.

WebArena Benchmark: Das finegetunte Modell (GO-BROWSE-7B) erreichte eine Erfolgsrate von 21,7 %.
- Dies ist eine Steigerung von 2,9 % gegenüber dem aktuellen State-of-the-Art für Modelle unter 10 Mrd. Parametern (NNETNAV-7B mit 18,8 %).
- Es schlägt GPT-4o-mini (19,3 %) um 2,4 %.
- Es übertrifft das vortrainierte QWEN-2.5-7B-Modell um 13,4 %.
Generalisierung (Online-Mind2Web): Auch auf Out-of-Domain-Daten behält das Modell einen Vorsprung gegenüber NNETNAV-7B, insbesondere auf Webseiten, die den Trainingsdaten ähneln.
Qualitätsanalyse:
- Vielfalt: GO-BROWSE erzeugt eine ausgewogenere Verteilung von Aufgaben über verschiedene Domänen hinweg und vermeidet die Redundanz, die bei reinen Interaktions-first-Ansätzen (wie NNETNAV) auftritt.
- Tiefe: Die erfolgreichen Trajektorien von GO-BROWSE gehen signifikant tiefer in die Webseiten-Struktur (längere URL-Pfade), was zeigt, dass das Modell besser darin ist, komplexe Navigationspfade zu meistern.

Bedeutung und Beiträge

Effiziente unüberwachte Datensammlung: GO-BROWSE demonstriert, dass durch die Wiederverwendung von Informationen (Reset-Strategie) und die Entkopplung von Navigation und Aufgabenlösung hochwertige Trainingsdaten für Web-Agenten effizienter gesammelt werden können als mit bisherigen Methoden.
Leistungssteigerung kleiner Modelle: Die Studie zeigt, dass ein 7-Milliarden-Parameter-Modell durch gezieltes Training auf strukturiert gesammelten Daten nicht nur andere Open-Weight-Modelle, sondern auch kommerzielle kleine Modelle wie GPT-4o-mini übertreffen kann.
Skalierbarkeit: Der Ansatz ist vollständig automatisiert und skalierbar auf beliebige Webseiten, was den Weg für zukünftige, noch größere Datensätze ebnet.
Open Source: Code, Datensatz und Modelle werden öffentlich verfügbar gemacht, was die Reproduzierbarkeit und weitere Forschung fördert.

Zusammenfassend adressiert GO-BROWSE das Problem der mangelnden Umgebungsintelligenz von Web-Agenten durch eine intelligente, graphbasierte Explorationsstrategie, die zu signifikanten Verbesserungen in der Aufgabenlösung führt.

Go-Browse: Training Web Agents with Structured Exploration

1. Das Problem: Der Roboter ohne Landkarte

2. Die Lösung: GO-BROWSE – Der erfahrene Stadtplaner

3. Wie GO-BROWSE Daten sammelt (Der Dreischritt)

4. Das Ergebnis: Ein besserer Roboter

Zusammenfassung in einem Satz

Problemstellung

Methodik: GO-BROWSE

Datensammlung (GO-BROWSE-WA)

Ergebnisse

Bedeutung und Beiträge

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis