Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Each language version is independently generated for its own context, not a direct translation.

Das große Experiment: KI als Planer im Blocksworld-Spiel

Stellen Sie sich vor, Sie müssen einen riesigen Turm aus Spielklötzen so umsortieren, dass am Ende eine bestimmte Anordnung entsteht. Das ist das „Blocksworld"-Problem, ein Klassiker in der Robotik und KI-Forschung.

Die Forscher haben sich gefragt: Kann eine moderne KI (ein Large Language Model, kurz LLM) diesen Turm besser umsortieren als ein klassischer, strenger Computer-Algorithmus? Und noch wichtiger: Hilft es der KI, wenn sie nicht einfach einen ganzen Plan auf einmal schreibt, sondern Schritt für Schritt vorgeht, dabei auf ihre Umgebung schaut und bei Fehlern neu anfangen kann?

Um das herauszufinden, haben sie ein neues Werkzeug namens PyPDDLEngine gebaut.

1. Die zwei Methoden: Der Visionär vs. Der Navigator

Die Forscher haben zwei Arten verglichen, wie die KI (hier: Claude Haiku) an die Aufgabe herangeht:

Der Visionär (Direkte Planung):
Stellen Sie sich vor, Sie schreiben einen Roman. Der Visionär versucht, die gesamte Geschichte von Anfang bis Ende in einem einzigen, perfekten Wurf zu schreiben. Wenn ein Satz nicht passt, wirft er das ganze Blatt weg und fängt von vorne an. Er bekommt keine Rückmeldung, während er schreibt. Er muss alles aus dem Kopf wissen.
- Im Experiment: Die KI schreibt den kompletten Ablauf der Klotz-Bewegungen auf einmal. Wenn es falsch ist, wird es verworfen und neu versucht.
Der Navigator (Agente Planung):
Jetzt stellen Sie sich einen Wanderer vor, der durch einen dunklen Wald muss. Er macht einen Schritt, schaut sich um, prüft, ob er noch auf dem richtigen Weg ist. Wenn er in eine Sackgasse läuft, dreht er um und probiert einen anderen Weg. Er nutzt eine Karte (die Simulation), die ihm nach jedem Schritt sagt: „Du bist jetzt hier."
- Im Experiment: Die KI macht einen Schritt, schaut auf das Ergebnis, entscheidet dann den nächsten Schritt. Sie kann sich auch sagen: „Das läuft ins Leere, wir fangen von vorne an."

2. Die Ergebnisse: Wer gewinnt?

Die Forscher ließen beide Methoden gegen einen sehr starken klassischen Computer-Algorithmus (Fast Downward) antreten. Hier sind die Ergebnisse in einfachen Worten:

Der klassische Algorithmus: Er war der klare Sieger. Er löste 85 % der Aufgaben. Er ist wie ein erfahrener Mathematiker, der das Problem systematisch durchrechnet.
Der Visionär (KI): Er schaffte es in 64 % der Fälle.
Der Navigator (KI mit Schritt-für-Schritt-Feedback): Er schaffte es in 67 % der Fälle.

Das Fazit: Die Schritt-für-Schritt-Methode war zwar etwas besser als das reine „Aus-dem-Kopf-Planen", aber der Vorsprung war winzig (nur 3 Prozentpunkte). Und das hatte einen hohen Preis: Die Schritt-für-Schritt-Methode verbrauchte fast 6-mal so viel Rechenleistung (Token-Kosten) für jedes gelöste Rätsel.

3. Das große Geheimnis: Warum hilft das „Schritt-für-Schritt" nicht mehr?

Das ist der spannendste Teil der Studie. Warum war die interaktive Methode nicht viel besser?

Stellen Sie sich vor, Sie programmieren einen Roboter.

Im Programmieren: Wenn der Roboter einen Fehler macht, sagt der Computer: „Fehler in Zeile 10: Semikolon fehlt." Das ist ein klares, externes Signal. Die KI weiß genau, wo sie falsch liegt, und kann es korrigieren. Das funktioniert super.
Im Blocksworld-Spiel: Wenn die KI einen Klotz falsch bewegt, sagt die Simulation nur: „Okay, der Klotz ist jetzt hier." Sie sagt aber nicht: „Du bist weit weg vom Ziel!" oder „Das war eine schlechte Idee."

Die KI muss also selbst beurteilen, ob sie auf dem richtigen Weg ist. Das ist wie ein Navigator, der in einem Nebel steht und niemandem sagt, ob er sich dem Ziel nähert oder wegbewegt. Er muss sich das selbst ausdenken. Da die KI hier oft falsch liegt (sie dachte manchmal, das Problem sei unlösbar und gab auf, obwohl es lösbar war), half ihr der Schritt-für-Schritt-Modus nicht wirklich weiter.

4. Die Überraschung: Die KI „lernt" nicht wirklich, sie „merkt" sich

Die Forscher stellten noch eine seltsame Sache fest: Die KI plante oft kürzere Wege als der klassische Algorithmus, selbst wenn dieser Algorithmus extra Zeit hatte, um seine Lösung zu optimieren.

Das deutet darauf hin, dass die KI das Blocksworld-Spiel nicht wirklich „denkt" oder logisch herleitet. Stattdessen merkt sie sich Lösungen aus ihren Trainingsdaten. Da das Blocksworld-Spiel so oft im Internet vorkommt, hat die KI die Muster einfach auswendig gelernt. Wenn sie es „weiß", schreibt sie die perfekte Lösung. Wenn sie es nicht weiß, scheitert sie komplett. Es gibt keinen Mittelweg, wie bei einem menschlichen Lernenden, der sich langsam verbessert.

Zusammenfassung für den Alltag

Diese Studie zeigt uns etwas Wichtiges für die Zukunft von Robotern und KI:

Interaktion allein reicht nicht: Nur weil eine KI Schritt für Schritt mit ihrer Umgebung interagiert, wird sie nicht automatisch klüger.
Klares Feedback ist König: Damit eine KI wirklich gut plant, braucht sie klare Signale von außen (wie ein Lehrer, der sagt: „Das war falsch, weil..."). Wenn sie sich selbst beurteilen muss, stolpert sie oft.
Gedächtnis vs. Intelligenz: Bei bekannten Aufgaben (wie dem Blocksworld-Spiel) nutzen KIs oft ihr Gedächtnis (Auswendiglernen) statt echtes logisches Denken.

Die Metapher am Ende:
Ein klassischer Planer ist wie ein GPS, das den Weg exakt berechnet. Eine KI ohne klares Feedback ist wie ein Tourist ohne Karte, der versucht, sich durch Raten und Ausprobieren durch die Stadt zu schlagen. Er kommt vielleicht manchmal schneller ans Ziel, wenn er die Stadt kennt (auswendig gelernt hat), aber wenn er in eine unbekannte Gegend gerät, verirrt er sich schneller als das GPS. Und wenn er sich selbst fragen muss, ob er auf dem richtigen Weg ist, ohne dass ihm jemand hilft, wird er schnell unsicher.

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Das große Experiment: KI als Planer im Blocksworld-Spiel

1. Die zwei Methoden: Der Visionär vs. Der Navigator

2. Die Ergebnisse: Wer gewinnt?

3. Das große Geheimnis: Warum hilft das „Schritt-für-Schritt" nicht mehr?

4. Die Überraschung: Die KI „lernt" nicht wirklich, sie „merkt" sich

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik

A. PyPDDLEngine und MCP-Schnittstelle

B. Experimentelles Design

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerungen

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Das große Experiment: KI als Planer im Blocksworld-Spiel

1. Die zwei Methoden: Der Visionär vs. Der Navigator

2. Die Ergebnisse: Wer gewinnt?

3. Das große Geheimnis: Warum hilft das „Schritt-für-Schritt" nicht mehr?

4. Die Überraschung: Die KI „lernt" nicht wirklich, sie „merkt" sich

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik

A. PyPDDLEngine und MCP-Schnittstelle

B. Experimentelles Design

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerungen

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach