STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

Die Arbeit stellt STRUCTUREDAGENT vor, ein hierarchisches Planungsframework, das dynamische UND/ODER-Bäume und ein strukturiertes Gedächtnis nutzt, um die Leistung von LLM-basierten Agenten bei komplexen Web-Aufgaben mit langem Zeithorizont durch verbesserte Planung und Nachverfolgung von Lösungen zu steigern.

ELita Lobo, Xu Chen, Jingjing Meng, Nan Xi, Yang Jiao, Chirag Agarwal, Yair Zick, Yan Gao

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🌐 Der digitale Detektiv mit einem perfekten Plan: STRUCTUREDAGENT

Stell dir vor, du beauftragst einen sehr intelligenten, aber etwas vergesslichen und ungeduldigen Assistenten, eine komplexe Aufgabe im Internet zu erledigen. Zum Beispiel: „Finde mir ein veganes Schokoladenbrownie-Rezept mit mindestens 4 Sternen, das unter 10 Minuten Zubereitungszeit liegt und glutenfrei ist."

Ein normaler KI-Assistent (ein sogenannter „Web-Agent") würde wahrscheinlich so vorgehen:

  1. Er sucht nach „veganes Brownie".
  2. Er klickt auf das erste Ergebnis.
  3. Oh nein, es ist nicht glutenfrei.
  4. Der Assistent wird verwirrt, vergisst, dass er eigentlich glutenfrei suchte, und klickt vielleicht auf etwas anderes, das gar nichts damit zu tun hat. Oder er gibt frustriert auf, weil er den Überblick verloren hat.

Das Problem ist: Der Assistent hat kein gutes Gedächtnis für den gesamten Weg, keinen echten Plan und neigt dazu, voreilig aufzugeben, sobald er auf ein Hindernis stößt.

Hier kommt STRUCTUREDAGENT ins Spiel. Es ist wie ein erfahrener Architekt und Bauleiter, der den Assistenten anleitet.

1. Der Bauplan: Der AND/OR-Baum 🌳

Statt einfach drauflos zu klicken, baut STRUCTUREDAGENT einen riesigen, gedanklichen Baum aus Plänen.

  • Der Stamm (Das Ziel): „Finde das perfekte Brownie-Rezept."
  • Die Äste (UND-Knoten): Damit der Stamm steht, müssen alle Äste stark sein. Das bedeutet: Das Rezept muss gleichzeitig vegan SEIN UND glutenfrei SEIN UND schnell sein. Wenn einer fehlt, ist der ganze Plan gescheitert.
  • Die Gabelungen (ODER-Knoten): Hier hat der Assistent die Wahl. „Wie finde ich glutenfreie Rezepte?"
    • Option A: Suche direkt auf einer glutenfreien Seite.
    • Option B: Filtere die normalen Ergebnisse nach „glutenfrei".
    • Der Assistent probiert erst Option A. Wenn das scheitert, geht er sofort zu Option B über, ohne zu verzweifeln.

Die Metapher: Stell dir das wie ein Labyrinth vor. Ein normaler Agent läuft blind in eine Sackgasse und bleibt dort stecken. STRUCTUREDAGENT zeichnet eine Karte. Wenn er eine Sackgasse sieht, streicht er sie auf der Karte durch (das nennt man „Pruning") und läuft sofort den nächsten markierten Pfad weiter. Er weiß genau, wo er war und welche Wege nicht funktionieren.

2. Das Notizbuch: Strukturiertes Gedächtnis 📓

Normalerweise schreiben KI-Assistenten ihre Gedanken in einen langen, unordentlichen Textblock. Das ist wie ein Notizblock, auf dem jemand wild herumgekritzt hat.

STRUCTUREDAGENT nutzt eine strukturierte Tabelle (wie ein Excel-Sheet).

  • Spalte 1: Kandidaten (Rezept A, Rezept B).
  • Spalte 2: Ist es vegan? (Ja/Nein).
  • Spalte 3: Ist es glutenfrei? (Ja/Nein).
  • Spalte 4: Bewertung.

Wenn der Assistent ein neues Rezept findet, trägt er es sofort ein. Wenn er sieht, dass Rezept A nicht glutenfrei ist, streicht er es in der Tabelle durch. So vergisst er nie, dass er eigentlich glutenfrei sucht. Er behält den Überblick über alle Kandidaten, die er gesehen hat, nicht nur über den, auf dem er gerade steht.

3. Der menschliche Eingriff: Wenn der Assistent feststeckt 🛑

Manchmal ist die Aufgabe so knifflig, dass die KI den Plan falsch versteht.

  • Beispiel: Die KI denkt, sie müsse erst die Zutaten kaufen, bevor sie das Rezept findet.
  • Die Lösung: STRUCTUREDAGENT erlaubt es einem Menschen, in den Baum einzugreifen. Der Mensch kann sagen: „Moment, das ist falsch! Streiche diesen Ast und füge hier einen neuen ein: 'Finde zuerst das Rezept'."
    Das ist wie ein Bauleiter, der auf die Baustelle kommt, sieht, dass die Mauern schief stehen, und den Plan korrigiert, bevor das ganze Haus einstürzt.

Warum ist das so wichtig?

Frühere KIs waren wie Autofahrer ohne Navi: Sie fahren los, wenn sie in eine Sackgasse kommen, drehen sie oft im Kreis oder geben auf.

STRUCTUREDAGENT ist wie ein Autofahrer mit einem perfekten Navi und einem Co-Piloten:

  1. Er plant die Route im Voraus (der Baum).
  2. Er merkt sich, welche Straßen gesperrt sind (das strukturierte Gedächtnis).
  3. Er kann die Route dynamisch ändern, wenn eine Straße gesperrt ist (Reparatur des Plans).
  4. Er gibt nicht auf, bis er das Ziel erreicht hat.

Das Ergebnis

In Tests (wie beim Einkaufen auf Amazon oder beim Suchen von Informationen im Web) hat sich gezeigt, dass dieser strukturierte Ansatz viel besser funktioniert als die alten Methoden. Die KI macht weniger Fehler, findet die richtigen Produkte auch bei vielen Einschränkungen und kann komplexe Aufgaben lösen, bei denen andere Assistenten längst aufgegeben hätten.

Kurz gesagt: STRUCTUREDAGENT macht aus einem chaotischen, vergesslichen KI-Assistenten einen disziplinierten, planenden und lernfähigen Profi, der genau weiß, wohin er geht und was er tun muss.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →