Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die een kamer moet opruimen. De robot moet weten welke blokken waarheen moeten, welke blokken op elkaar gestapeld kunnen worden en welke niet. Dit noemen we "planning".

Deze paper onderzoekt een interessante vraag: Kunnen moderne AI-modellen (zoals de slimme chatbots die we vandaag kennen) deze taken beter plannen dan de oude, traditionele methoden? En nog belangrijker: helpt het als we de AI laten "proberen, kijken wat er gebeurt, en dan opnieuw proberen" (zoals een mens dat zou doen), in plaats van ze direct een volledig plan te laten bedenken?

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.

1. De Twee Manieren van Plannen

De onderzoekers hebben twee manieren getest om de AI te laten plannen:

De "Directe" Manier (De Dromer):
Stel je voor dat je iemand vraagt: "Bedenk een route van Amsterdam naar Rome." Die persoon denkt even na en schrijft direct een volledig reisplan op: "Eerst trein, dan bus, dan vliegtuig..."
- Het probleem: Als er een fout in staat (bijvoorbeeld: de bus rijdt niet op die dag), moet de persoon het hele plan weggooien en opnieuw beginnen. Er is geen tussentijdse controle.
- In de paper noemen ze dit Direct LLM Planning. De AI schrijft het hele plan in één keer op.
De "Agentische" Manier (De Wandeltocht met Kompas):
Nu vragen we dezelfde persoon: "Lopen we samen naar Rome. Stap voor stap. Ik zeg je waar je bent, en jij beslist de volgende stap."
- De AI doet één stap, kijkt of het lukt, en beslist dan pas de volgende. Als ze merken dat ze in een doodlopende straat zitten, kunnen ze terugspringen naar het begin en een andere route proberen.
- In de paper noemen ze dit Agentic LLM Planning. Ze gebruiken een speciaal hulpmiddel (PyPDDLEngine) dat fungeert als een simulatie-systeem.

2. Het Experiment: De Blokkenwereld

Om dit te testen, gebruikten ze een klassiek puzzelspel: Blocksworld.
Stel je een tafel voor met verschillende blokken. De opdracht is: "Zet het rode blok op het blauwe blok."

Er waren 102 verschillende puzzels, van heel makkelijk tot heel moeilijk.
Ze gaven alle methoden precies 3 minuten (180 seconden) de tijd om een oplossing te vinden.

3. De Resultaten: Wie deed het beter?

De onderzoekers vergeleken de AI met de "gouden standaard" van robotica: een oude, zeer snelle en logische computerprogramma (Fast Downward).

De Oude Computer (Fast Downward):
Deze deed het uitstekend. Hij loste 85% van de puzzels op. Hij is als een super-rekenmachine die geen fouten maakt, maar ook geen creativiteit heeft.
De AI (Direct):
Deze loste 64% op.
De AI (Agentisch - Stap voor stap):
Deze loste 67% op.

De verrassing: De "stap-voor-stap" AI deed het iets beter dan de "directe" AI, maar het verschil was klein (slechts 3%). En het kostte de AI 5,7 keer meer rekenkracht (en dus geld/energie) om die kleine winst te behalen.

4. Waarom werkt het niet zo goed als bij het programmeren?

Dit is het meest interessante deel van de paper. De onderzoekers vergelijken dit met AI die code schrijft (zoals een programmeur).

Bij programmeren: Als de AI een fout maakt, geeft de computer een duidelijke foutmelding: "Deze regel werkt niet." Dit is een externe, objectieve feedback. De AI weet precies wat er mis is.
Bij dit plan (Blocksworld): De AI doet een stap en ziet: "Oké, het blok is verplaatst." Maar de AI krijgt geen signaal dat zegt: "Je bent nu dichter bij het doel" of "Je bent op het verkeerde pad". De AI moet zelf raden of het goed gaat.

De Metafoor:
Stel je voor dat je in het donker door een labyrint loopt.

Bij programmeren: Iemand roept je toe: "Je bent 10 meter van de uitgang verwijderd!" of "Je loopt tegen een muur!" (Dit is de externe feedback).
Bij dit experiment: Je loopt in het donker. Je voelt een muur, maar je weet niet of je dichter bij de uitgang bent of juist verder weg. Je moet het zelf raden.
De onderzoekers concluderen dat de AI in het donker (zonder externe feedback) niet veel beter wordt door stap-voor-stap te lopen. Ze raken vaak in de war en denken dat een probleem onoplosbaar is, terwijl het dat niet is.

5. De "Geheugen"-Theorie

Er is nog een opvallend punt. De AI maakte soms zelfs kortere routes dan de super-snelle oude computer, zelfs als die oude computer de tijd had om zijn plan te verbeteren.

De onderzoekers denken dat dit komt omdat de AI de oplossingen uit zijn hoofd heeft geleerd (uit zijn trainingsdata), in plaats van echt te "redeneren".

Het is alsof de AI een boek heeft gelezen over "Hoe je blokken stapelt" en de antwoorden uit het hoofd kent.
Als ze een nieuwe, rare puzzel krijgen die ze niet kennen, zakken ze direct in elkaar. Ze zijn geen echte planners, maar slimme "herhalers" van bekende patronen.

Conclusie: Wat betekent dit voor de toekomst?

De paper zegt eigenlijk: "AI is slim, maar niet slim genoeg om zichzelf te controleren zonder hulp."

Als we robots willen bouwen die echt zelfstandig taken uitvoeren, kunnen we niet alleen vertrouwen op de AI om te zeggen "dit werkt wel". We hebben een systeem nodig dat de robot duidelijke signalen geeft: "Je bent op de goede weg" of "Stop, je maakt een fout".

Zonder die duidelijke, externe feedback (zoals een foutmelding in code of een sensor die aangeeft dat een blok is gevallen), blijft de AI steken in het raden en is het "stap-voor-stap" plannen niet veel beter dan het direct bedenken van een plan.

Kort samengevat:
De AI is als een student die de antwoorden uit het hoofd heeft geleerd. Als je hem een vraag stelt die hij kent, geeft hij het perfecte antwoord. Maar als je hem vraagt om stap voor stap een nieuw probleem op te lossen zonder dat iemand hem vertelt of hij het goed doet, raakt hij snel in de war. Voor echte robots hebben we dus niet alleen een slimme "hoofd", maar ook goede "ogen" en "oren" die de AI vertellen of hij op de goede weg is.

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

1. De Twee Manieren van Plannen

2. Het Experiment: De Blokkenwereld

3. De Resultaten: Wie deed het beter?

4. Waarom werkt het niet zo goed als bij het programmeren?

5. De "Geheugen"-Theorie

Conclusie: Wat betekent dit voor de toekomst?

1. Probleemstelling

2. Methodologie

PyPDDLEngine en MCP Interface

Experimenteel Protocol

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

1. De Twee Manieren van Plannen

2. Het Experiment: De Blokkenwereld

3. De Resultaten: Wie deed het beter?

4. Waarom werkt het niet zo goed als bij het programmeren?

5. De "Geheugen"-Theorie

Conclusie: Wat betekent dit voor de toekomst?

1. Probleemstelling

2. Methodologie

PyPDDLEngine en MCP Interface

Experimenteel Protocol

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction