AI Planning Framework for LLM-Based Web Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen sehr komplizierten Auftrag erledigen, zum Beispiel: „Kauf mir ein neues Fahrrad, finde die beste Route zum nächsten Bahnhof und buche ein Hotel in der Nähe."

Früher waren Computerprogramme für solche Aufgaben wie starre Roboter. Sie folgten einem festgeschriebenen Skript. Wenn die Website des Fahrradshops auch nur ein bisschen anders aussah (z. B. ein Button woanders war), lief das Programm sofort fehl.

Heute nutzen wir Künstliche Intelligenz (KI), genauer gesagt „Large Language Models" (LLMs). Diese sind wie sehr kluge, aber manchmal etwas chaotische Assistenten. Sie verstehen Sprache und Bilder, aber sie arbeiten oft wie eine „Blackbox": Man sieht, was sie tun, aber nicht wirklich, warum sie eine bestimmte Entscheidung treffen oder warum sie scheitern.

Dieser Artikel von Orit Shahnovsky und Rotem Dror versucht, dieses Chaos zu ordnen. Hier ist die Erklärung in einfachen Worten:

1. Drei Arten, wie der KI-Assistent plant

Die Autoren sagen: „Schauen wir uns an, wie diese Assistenten ihre Aufgaben angehen, und vergleichen sie mit klassischen Suchmethoden." Sie unterscheiden drei Typen:

Der „Schritt-für-Schritt"-Assistent (BFS – Breitensuche):
- Die Analogie: Stellen Sie sich jemanden vor, der durch einen dichten Wald läuft. Er schaut sich nur genau den nächsten Schritt an. „Gibt es hier einen Weg? Ja, dann gehe ich dorthin." Dann schaut er wieder nur den nächsten Schritt an.
- Vorteil: Er reagiert sehr schnell auf Veränderungen im Wald.
- Nachteil: Er hat keinen langen Blick voraus. Er kann leicht in eine Sackgasse laufen, weil er nicht gesehen hat, dass der Weg hinter der nächsten Kurve abbricht.
Der „Baum-Such"-Assistent (Best-First Search):
- Die Analogie: Dieser Assistent steht auf einem Hügel und schaut sich den Wald an. Er probiert im Kopf verschiedene Wege aus, bewertet sie („Dieser Weg sieht vielversprechend aus") und wählt dann den besten aus. Er behält mehrere Optionen im Hinterkopf.
- Vorteil: Er ist strategischer als der erste Typ.
Der „Ganz-Plan-zuerst"-Assistent (DFS – Tiefensuche):
- Die Analogie: Dieser Assistent ist ein perfekter Architekt. Bevor er auch nur einen Fuß bewegt, zeichnet er den gesamten Weg vom Start bis zum Ziel auf ein riesiges Blatt Papier. „Zuerst gehe ich zum Tor, dann links, dann die Treppe hoch..." Er versucht, diesen Plan strikt einzuhalten.
- Vorteil: Er hat einen klaren Überblick und weiß, wo er hinwill.
- Nachteil: Wenn auf dem Weg ein Baum umfällt (eine unerwartete Änderung auf der Website), gerät er in Panik. Da er stur seinem Plan folgt, weiß er oft nicht, wie er sich anpassen soll, und bleibt stecken.

2. Das Problem: Nur „Erfolg" oder „Fehlschlag" reicht nicht

Bisher haben Forscher nur geschaut: „Hat der Assistent das Fahrrad gekauft? Ja/Nein."
Das ist wie bei einem Schüler, der eine Matheprüfung macht. Wenn er die richtige Antwort hat, bekommt er eine 1. Wenn nicht, eine 6. Aber was ist, wenn er den richtigen Weg gewählt hat, aber am Ende einen kleinen Rechenfehler gemacht hat? Oder wenn er sich verlaufen hat, aber dann clever zurückgefunden hat?

Die alten Methoden sagen nur: „Fehlschlag." Das ist zu grob.

3. Die neue Lösung: Ein neues Bewertungssystem

Die Autoren haben sich fünf neue Metriken (Messgrößen) ausgedacht, um zu sehen, wie gut der Assistent gearbeitet hat, nicht nur ob er fertig wurde:

Wiederherstellungsrate (Recovery Rate): Wenn der Assistent einen Fehler macht, findet er dann zurück zum richtigen Weg? (Wie ein Wanderer, der vom Pfad abkommt, aber den Weg wieder findet).
Wiederholungsrate: Macht der Assistent immer wieder die gleiche dumme Aktion? (Wie jemand, der gegen eine geschlossene Tür hämmert, statt das Fenster zu öffnen).
Schritt-Erfolgsrate: Folgt der Assistent dem Weg, den ein Mensch auch gehen würde?
Teil-Erfolgsrate: Wenn die Aufgabe war „Finde 5 Fahrräder" und er findet 4, ist das dann ein kompletter Fehlschlag? Nein, diese Metrik gibt ihm Punkte für die 4 gefundenen.
Element-Genauigkeit: Hat der Assistent genau das geklickt, was er vorhatte? (Manchmal sagt die KI: „Ich klicke jetzt auf 'Kaufen'", klickt aber versehentlich auf 'Zurück').

4. Das Experiment: Der große Vergleich

Die Autoren haben einen neuen Datensatz erstellt, bei dem echte Menschen 794 Aufgaben gelöst haben. Diese menschlichen Lösungen dienen als „Goldstandard" (die perfekte Vorlage).

Dann haben sie zwei KI-Assistenten gegeneinander antreten lassen:

Einen Schritt-für-Schritt-Assistenten (wie im WebArena-Benchmark).
Einen neuen Ganz-Plan-zuerst-Assistenten (den sie selbst gebaut haben).

Das Ergebnis war überraschend:

Der Schritt-für-Schritt-Assistent war dem menschlichen Weg sehr ähnlich. Er fand schneller zurück, wenn er sich verirrte, und schaffte es insgesamt etwas öfter zum Ziel (38,4 % Erfolg).
Der Ganz-Plan-zuerst-Assistent war technisch brillanter: Er wählte die richtigen Buttons fast perfekt aus (89 % Genauigkeit) und wiederholte sich weniger. Aber: Wenn sein Plan nicht perfekt passte, geriet er in Panik, lief in Sackgassen und schaffte es seltener zum Ziel (36,3 % Erfolg).

5. Was lernen wir daraus?

Es gibt nicht „den einen" besten Assistenten. Es kommt auf die Aufgabe an:

Nutzen Sie den „Schritt-für-Schritt"-Assistenten, wenn die Welt chaotisch ist. Zum Beispiel auf Social Media (Reddit) oder in komplexen Cloud-Dashboards, wo sich Dinge ständig ändern. Hier ist Flexibilität wichtiger als ein starrer Plan.
Nutzen Sie den „Ganz-Plan-zuerst"-Assistenten, wenn die Welt strukturiert ist. Zum Beispiel beim Online-Shopping oder in Banken-Portalen. Hier sind die Wege vorhersehbar, und ein klarer Plan verhindert, dass der Assistent sich von Pop-up-Werbungen ablenken lässt.

Fazit:
Dieser Artikel ist wie eine Landkarte für KI-Entwickler. Er zeigt uns, dass wir nicht nur fragen müssen „Hat die KI die Aufgabe erledigt?", sondern „Wie hat sie es gemacht?". Nur so können wir die richtigen Werkzeuge für die richtigen Jobs auswählen und KI-Assistenten bauen, die nicht nur stark, sondern auch klug und zuverlässig sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung autonomer Agenten für webbasierte Aufgaben ist eine zentrale Herausforderung im Bereich der Künstlichen Intelligenz (KI). Zwar können Large Language Models (LLMs) komplexe Benutzeranfragen interpretieren, agieren jedoch oft als „Blackbox". Dies erschwert die Diagnose von Fehlern und das Verständnis der Planungsprozesse.

Fehlende Transparenz: Es fehlt ein einheitliches Framework, um zu analysieren, wie LLM-Agenten planen, warum sie scheitern (z. B. durch Kontextdrift oder inkohärente Aufgabendekomposition) und wie sie sich zu traditionellen Planungsmethoden verhalten.
Mangelnde Evaluierung: Bestehende Benchmarks (wie WebArena) bewerten Agenten fast ausschließlich anhand binärer Erfolgsraten (Erfolg/Misserfolg). Diese Metriken erfassen nicht die Qualität des Ausführungspfads, die Effizienz, die Fähigkeit zur Fehlerkorrektur oder die Kohärenz der Zwischenschritte.

2. Methodik und Framework

Die Autoren behandeln webbasierte Aufgaben formal als sequenzielle Entscheidungsprozesse (Sequential Decision-Making) und schlagen ein mehrstufiges Framework vor:

A. Taxonomie der Agenten-Architekturen

Das Paper stellt eine neue Klassifizierung vor, die moderne LLM-Agenten-Architekturen traditionellen Suchparadigmen zuordnet:

Step-by-Step Agenten (Breitensuche / BFS): Der Agent generiert für den aktuellen Zustand nur eine unmittelbare Aktion, führt sie aus und bewertet dann den neuen Zustand. Dies entspricht einer Breitensuche mit einem Suchhorizont von Tiefe $d=1$ . (Beispiel: Der Standard-WebArena-Agent).
Tree Search Agenten (Best-First Search): Der Agent hält einen Suchbaum offen, generiert Kandidatenaktionen für mehrere Schritte im Voraus und bewertet diese mittels einer Wertefunktion ( $V$ ), um den vielversprechendsten Pfad zu wählen.
Full-Plan-in-Advance Agenten (Tiefensuche / DFS): Der Agent generiert vor der Ausführung einen vollständigen Pfad (Trajektorie) vom Start- zum Zielzustand. Während der Ausführung folgt er strikt diesem Plan, was als Tiefensuche interpretiert wird. Da es keine etablierte Implementierung dieser reinen Form gab, entwickelten die Autoren eine eigene.

B. Implementierung des Full-Plan-in-Advance Agents

Der neu entwickelte Agent generiert einen nummerierten Plan mit beschreibenden Erklärungen basierend auf dem Nutzerziel und der Zugänglichkeitsstruktur (Accessibility Tree) der Webseite. Dieser Plan dient als externer Speicher („High-Level Memory"), um Kontextdrift zu verhindern. Bei jedem Schritt wird der aktuelle Plan zusammen mit dem aktuellen Zustand erneut in den Prompt eingegeben.

C. Evaluierungs-Metriken

Um die Qualität des Prozesses über den reinen Erfolg hinaus zu messen, werden fünf neue Metriken eingeführt, die teilweise auf einem menschlichen Goldstandard basieren:

Recovery Rate (Wiederherstellungsrate): Misst, wie gut ein Agent nach einer Abweichung vom menschlichen Referenzpfad wieder auf den richtigen Kurs zurückkehrt.
Repetitiveness Rate (Wiederholungsrate): Quantifiziert den Anteil redundanter Aktionen (z. B. wiederholtes Klicken auf denselben Button).
Step Success Rate (Schritt-Erfolgsrate): Der Anteil der menschlichen Gold-Schritte, die vom Agenten-Trajektorium erfolgreich erfüllt wurden.
Partial Success Rate (Teil-Erfolgsrate): Bewertet, wie viele der erforderlichen Elemente in der finalen Antwort (bei Aufgaben mit mehreren Anforderungen) korrekt geliefert wurden.
Element Accuracy Rate (Element-Genauigkeit): Vergleicht die vom Agenten geplante Aktion mit der tatsächlich ausgeführten Aktion, um Diskrepanzen zwischen Absicht und Ausführung zu messen.

Die Auswertung dieser Metriken erfolgt teilweise mittels „LLM-as-a-Judge", wobei LLMs semantische Äquivalenzen zwischen menschlichen und agenten-generierten Schritten bewerten.

3. Datensatz

Als dritte Hauptbeitrag leisteten die Autoren die Erstellung eines umfassenden Referenz-Datensatzes:

Umfang: 794 manuell annotierte „Gold-Trajektorien" (menschliche Ausführungspfade) basierend auf dem WebArena-Benchmark.
Zweck: Diese Daten dienen als Ground Truth für die Berechnung der neuen Metriken (insbesondere Recovery Rate und Step Success Rate) und ermöglichen eine feinkörnige Analyse von Agentenfehlern.

4. Ergebnisse

Die Autoren verglichen den Standard Step-by-Step Agent (WebArena) mit dem neu entwickelten Full-Plan-in-Advance Agent auf dem WebArena-Benchmark (812 Aufgaben):

Gesamterfolg (Success Rate): Der Step-by-Step Agent schnitt leicht besser ab (38,41 % vs. 36,29 %). Der Plan-voraus-Planer zeigte in strukturierten Domänen (E-Commerce, Reddit) Verbesserungen, aber Schwächen in dynamischen Umgebungen (CMS, GitLab).
Schritt-Erfolgsrate (Step Success Rate): Der Step-by-Step Agent (82 %) passte sich deutlich besser an den menschlichen Referenzpfad an als der Full-Plan-in-Advance Agent (58 %). Der Planer neigte dazu, unnötige Schritte einzufügen oder essentielle Zwischenschritte zu überspringen.
Element-Genauigkeit (Element Accuracy): Hier glänzte der Full-Plan-in-Advance Agent mit 89 % (vs. 82 % beim Step-by-Step). Dies zeigt, dass der Planer zwar oft den falschen Pfad wählt, aber die identifizierten Elemente technisch präziser anspricht.
Wiederholungen und Erholung: Der Full-Plan-in-Advance Agent wiederholte Aktionen seltener, erholte sich aber seltener von Abweichungen (Recovery Rate: 31 % vs. 36 %).
Länge der Trajektorien: Der Full-Plan-in-Advance Agent benötigte durchschnittlich mehr Schritte (20,21) als der Step-by-Step Agent (15,02) und deutlich mehr als menschliche Pfade (7,92).

5. Bedeutung und Schlussfolgerungen

Das Paper liefert einen fundamentalen Beitrag zum Verständnis von LLM-Agenten:

Diagnose-Fähigkeit: Das Framework ermöglicht es, Fehlerursachen zu unterscheiden (Planungslogik vs. Halluzination) und zeigt, dass die Wahl der Planungsstrategie entscheidend für die Leistung ist.
Kontextabhängigkeit: Es gibt keine „beste" Architektur für alle Fälle.
- Step-by-Step ist besser für dynamische, schwer vorhersehbare Umgebungen (z. B. Cloud-Dashboards, soziale Medien), wo ständige Anpassung an den aktuellen Zustand nötig ist.
- Full-Plan-in-Advance ist vorteilhaft für stark strukturierte, vorhersagbare Umgebungen (z. B. E-Commerce, Enterprise-Portale), wo ein fester Fahrplan die Effizienz und technische Genauigkeit erhöht.
Evaluierungs-Paradigmenwechsel: Die vorgeschlagenen Metriken zeigen, dass eine reine Erfolgsrate irreführend sein kann. Ein Agent kann technisch präzise sein (hohe Element-Genauigkeit), aber aufgrund schlechter Planung scheitern. Umgekehrt kann ein Agent durch gute Erholungsfähigkeit (Recovery) erfolgreich sein, auch wenn er nicht dem perfekten menschlichen Pfad folgt.

Zusammenfassend etabliert das Paper eine Brücke zwischen klassischer KI-Planung und modernen LLM-Agenten und liefert Werkzeuge für eine differenziertere Entwicklung und Evaluierung autonomer Web-Agenten.