Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beauftragen einen sehr intelligenten, aber etwas verwirrten Assistenten, eine komplexe Aufgabe im Internet zu erledigen. Zum Beispiel: „Finde mir die günstigsten Sneaker in Größe 42, die heute noch lieferbar sind, und bestelle sie."

Bisher haben Forscher nur geschaut, ob der Assistent am Ende die Schuhe bestellt hat oder nicht. Das ist wie ein Lehrer, der nur das Endergebnis einer Matheaufgabe ansieht, ohne zu prüfen, ob der Schüler den Rechenweg verstanden hat. Oft scheitert der Assistent nicht am Denken, sondern daran, dass er die Tasten auf der Tastatur falsch drückt oder die falsche Webseite anklickt.

Diese neue Studie von Mohamed Aghzal und Kollegen aus George Mason University schaut sich genau an, wo und warum diese KI-Assistenten (LLM-Web-Agenten) scheitern. Sie nutzen dafür eine Art „Schichten-Analyse", die man sich wie einen Bauherrn vorstellen kann, der ein Haus plant.

Die drei Ebenen des Problems

Die Autoren teilen die Arbeit des KI-Assistenten in drei Ebenen auf, ähnlich wie bei einem Bauprojekt:

Der Architekt (Hochlevel-Planung):
Zuerst muss der Assistent einen groben Plan machen. „Zuerst zur Schuh-Webseite, dann nach Größe filtern, dann den günstigsten nehmen."
- Das Problem: Oft sind diese Pläne zu detailliert (der Architekt plant schon die Farbe der Fliesen, bevor das Fundament steht) oder zu vage.
- Die Lösung der Studie: Sie haben versucht, den Assistenten nicht nur in freiem Deutsch sprechen zu lassen, sondern ihn eine strengere Plansprache zu nutzen (genannt PDDL). Das ist wie der Unterschied zwischen einer losen Skizze auf einer Serviette und einem genauen, technischen Bauplan. Die Studie zeigt: Der technische Plan ist oft präziser und weniger verwirrend.
Der Maurer (Niedriglevel-Ausführung):
Jetzt muss der Plan in die Tat umgesetzt werden. Der Assistent muss tatsächlich auf den Button „Filtern" klicken, das Textfeld für die Größe anklicken und „42" eintippen.
- Das Problem: Hier liegt das größte Chaos. Selbst wenn der Architekt einen perfekten Plan hat, stolpert der Maurer oft. Er klickt auf das falsche Bild, tippt in das falsche Feld oder denkt sich Links aus, die gar nicht existieren (Halluzinationen).
- Die Erkenntnis: Das ist der „Flaschenhals". Die KI kann gut planen, aber sie ist schlecht darin, die reale Welt (die Webseite) genau zu sehen und zu steuern.
Der Bauleiter (Neuplanung/Replanning):
Was passiert, wenn etwas schiefgeht? Die Webseite lädt nicht, oder der gewünschte Schuh ist ausverkauft. Ein guter Assistent muss dann umplanen.
- Die Erkenntnis: Die Studie zeigt, dass KI-Assistenten, die einmal „stecken bleiben" und dann einen neuen Plan machen, deutlich besser abschneiden. Es ist wie beim Autofahren: Wenn Sie in eine Sackgasse fahren, wenden Sie sich nicht einfach um und fahren weiter, sondern suchen einen neuen Weg. Die KI lernt daraus, dass sie nach einem Fehler neu denken muss.

Die wichtigsten Erkenntnisse in einfachen Worten

Struktur hilft: Wenn man der KI eine strenge Sprache gibt (wie einen Bauplan), macht sie weniger Fehler beim Planen als wenn sie frei reden darf.
Das Sehen ist das Problem: Die größte Schwäche ist nicht das Denken, sondern das „Sehen" und „Greifen". Die KI verwechselt oft, wo sie klicken muss. Es ist, als würde jemand eine Landkarte perfekt lesen können, aber beim Gehen ständig gegen Bäume laufen.
Fehler sind okay (wenn man lernt): Wenn die KI merkt, dass sie gescheitert ist, und dann einen neuen Plan macht, wird sie viel erfolgreicher. Ein einziger Versuch, sich zu korrigieren, bringt enorme Verbesserungen.

Fazit für die Zukunft

Die Autoren sagen: Um KI-Assistenten wirklich menschlich zuverlässig zu machen, reicht es nicht, sie noch schlauer im Planen zu machen. Wir müssen ihnen beibringen, die Welt besser zu „fühlen" und zu verstehen, was passiert, wenn sie eine Taste drücken.

Man könnte sagen: Bisher haben wir versucht, den Assistenten zu einem besseren Philosophen zu machen. Aber eigentlich brauchen wir einen besseren Handwerker, der die Werkzeuge sicher in der Hand hält und weiß, was zu tun ist, wenn die Schraube nicht passt.

Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Die drei Ebenen des Problems

Die wichtigsten Erkenntnisse in einfachen Worten

Fazit für die Zukunft

1. Problemstellung

2. Methodik: Hierarchischer Bewertungsrahmen

3. Wichtige Beiträge und Erkenntnisse

A. Hochlevel-Planung

B. Niedriglevel-Ausführung (Der Hauptengpass)

C. Replanning

4. Ergebnisse im Vergleich der Modelle

5. Bedeutung und Schlussfolgerungen

Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Die drei Ebenen des Problems

Die wichtigsten Erkenntnisse in einfachen Worten

Fazit für die Zukunft

1. Problemstellung

2. Methodik: Hierarchischer Bewertungsrahmen

3. Wichtige Beiträge und Erkenntnisse

A. Hochlevel-Planung

B. Niedriglevel-Ausführung (Der Hauptengpass)

C. Replanning

4. Ergebnisse im Vergleich der Modelle

5. Bedeutung und Schlussfolgerungen

Mehr davon

Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems