Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Bouwen van een Perfecte Spelregels: Hoe AI Leren van Fouten

Stel je voor dat je een heel complex bordspel wilt spelen, maar je hebt alleen een beschrijving in gewone taal: "Je kunt hier een blokje verplaatsen, maar alleen als er geen muur is." Je wilt dat een computer dit spel speelt, maar computers hebben een heel strikt, formeel taal nodig (zoals PDDL) om te weten wat ze precies moeten doen. Het probleem? Als je die beschrijving aan een moderne AI (een 'Large Language Model' of LLM) geeft, maakt die vaak fouten. Het spelregelsboek dat de AI schrijft, ziet er misschien netjes uit, maar is onbruikbaar: je kunt er geen plan mee maken om te winnen.

Dit artikel over ICLR 2026 gaat over hoe we die AI kunnen helpen om die perfecte spelregels te schrijven, door haar te laten leren van haar eigen fouten.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De AI is een Beginneling

Stel je voor dat je een jonge kok bent die een recept moet schrijven voor een taart, maar je hebt alleen een mond-tot-mond beschrijving van je oma. De kok schrijft een recept, maar vergeet de suiker of gebruikt de verkeerde ovenstand. Als je het recept direct gebruikt, mislukt de taart.
In de wereld van AI-planning is dit hetzelfde. De AI schrijft een "domein" (de spelregels), maar deze zijn vaak logisch onzin, zelfs als ze grammaticaal correct zijn.

2. De Oplossing: Een Feedback-Cyclus

De auteurs van dit paper zeggen: "Laten we de AI niet alleen laten. Laten we haar een coach geven."
Ze hebben een systeem bedacht waarbij de AI een eerste versie van de spelregels schrijft, en vervolgens een coach (een computerprogramma) kijkt of die regels werken. Als het niet werkt, krijgt de AI een specifieke tip over wat er mis is.

Er zijn twee soorten "coaches" die ze gebruiken:

De "Landmark"-Coach (De Wegwijzer):
Stel je voor dat je door een bos loopt. Je weet dat je ooit een brug moet oversteken om bij je bestemming te komen. Dat is een "landmark". De coach zegt tegen de AI: "Je hebt een brug nodig in je regels, maar in je huidige versie is er geen enkele route die een brug gebruikt. Voeg een brug toe!"
Dit helpt de AI om de grote lijnen van het spel te begrijpen.
De "Plan"-Coach (De Testrijder):
Stel je voor dat je een auto bouwt. Je laat een testrijder (een plan) de route rijden. Als de testrijder vastloopt omdat de remmen niet werken, zegt de coach: "Je remmen werken niet in deze situatie. Pas je regels aan."
Dit is gedetailleerde feedback op basis van feitelijke fouten in de uitvoering.

3. De Slimme Zoektocht: Niet Willekeurig, maar Strategisch

Eerst probeerden de onderzoekers gewoon willekeurig een fout te kiezen om de AI te corrigeren. Dat is alsof je in een donker lokaal rondloopt en hoopt dat je per ongeluk de lichtknop vindt.

In dit paper introduceren ze iets slims: Zoeken in de ruimte van feedback.
Stel je voor dat je een boomplantje hebt. Je kunt het water geven, mest geven, of in de zon zetten. In plaats van willekeurig iets te proberen, kijkt de AI naar alle mogelijke tips die ze zou kunnen krijgen. Ze kiezen dan de beste tip (de mest, de zon, of het water) die de grootste kans heeft om het plantje te laten groeien.
Dit noemen ze Heuristische Zoektocht. Het is alsof je een GPS gebruikt die je de snelste route naar de perfecte spelregels toont, in plaats van blindelings rond te dwalen.

4. Wat Vonden Ze? (De Resultaten)

De onderzoekers hebben dit getest op veel verschillende "spellen" (van simpele blokken stapelen tot complexe Pac-Man-achtige scenarios).

Feedback werkt: Zonder feedback maakt de AI veel fouten. Met feedback wordt het spelregelsboek veel beter.
De combinatie is krachtig: Als je zowel de "Wegwijzer" (landmarks) als de "Testrijder" (plannen) gebruikt, krijg je de beste resultaten.
Slim zoeken is vaak beter: De strategische zoektocht (de GPS) werkt vaak beter dan willekeurig proberen, hoewel het soms net zo goed is als gewoon een willekeurige tip geven.
Het resultaat: Met hun beste methode (gebruikmakend van een model genaamd GPT-5-mini) konden ze voor elk geteste spel een perfecte set regels maken die 100% werkte.

Conclusie: Waarom is dit belangrijk?

Vroeger moesten mensen handmatig de complexe spelregels voor computers schrijven. Dat is moeilijk en tijdrovend.
Dit paper laat zien dat we AI nu kunnen gebruiken om die regels zelf te schrijven, zolang we haar maar een beetje helpen door haar te laten zien waar ze fouten maakt. Het is alsof we een AI-kok hebben die een recept schrijft, en we geven haar een paar tips van een proefpersoon totdat de taart perfect is.

Dit maakt het mogelijk om in de toekomst veel complexere en creatievere AI-systemen te bouwen, zonder dat we er zelf jarenlang uren aan moeten besteden om de basisregels te coderen. Het is een stap richting AI die niet alleen praat, maar ook daadwerkelijk kan plannen en werken in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het genereren van accurate en complete planningsdomeinen (in het formaat PDDL) vanuit natuurlijke taalbeschrijvingen blijft een open probleem, zelfs met de komst van grote taalmodellen (LLMs) en redeneringsmodellen. Hoewel LLMs in staat zijn om domeinen te genereren, zijn de resultaten vaak syntactisch correct maar semantisch gebrekkig. Bestaande methoden die gebruikmaken van feedback (zoals validatie van plannen of interactie met een omgeving) hebben vaak beperkingen:

Ze vertrouwen vaak op slechts één type feedback.
Ze genereren soms meer dan alleen het actie-model (bijv. ook problemen en plannen), wat kan leiden tot cumulatieve fouten.
Ze worden vaak geëvalueerd op beperkte benchmarks met bekende domeinen, wat generalisatie naar complexe of nieuwe domeinen in de weg staat.

Het doel van dit werk is om de kwaliteit van door LLM's gegenereerde planningsdomeinen te verbeteren door gebruik te maken van een agentic feedback-framework dat symbolische feedback (zoals landmarks en planvalidatie) combineert met een zoekstrategie in de feedbackruimte.

Methodologie

De auteurs stellen een pijplijn voor die bestaat uit twee hoofdfasen: initiële domeinconstructie en iteratieve domeinverfijning via feedback.

1. Initiële Constructie

Het proces start met een natuurlijke taalbeschrijving van een domein ( $D_{NL}$ ), inclusief beschrijvingen van predikaten en acties.
Het LLM genereert per actie een PDDL-actie, inclusief de gebruikte predikaten en types.
Er wordt een syntactische validatie uitgevoerd. Als de output syntactisch onjuist is, wordt een foutmelding gegenereerd en vraagt het model de actie opnieuw te genereren (tot een maximumdrempel).
Alle geldige acties worden samengevoegd tot een initiële PDDL-domeinbeschrijving ( $D'$ ).

2. Feedback Mechanismen

Om de kwaliteit van $D'$ te verbeteren, worden twee soorten symbolische feedback gebruikt, gegenereerd op basis van een "Ground Truth" domein ( $D$ ) en een set van testproblemen:

Plan Validatie Feedback (VAL): Bestaande plannen (uit het ground truth domein) worden getest in het gegenereerde domein $D'$ . Als een plan faalt, wordt een feedbackbericht gegenereerd dat aangeeft welke actie niet toepasbaar is of waarom het doel niet wordt bereikt.
Landmark Feedback: Landmarks (noodzakelijke feiten of acties die in elk geldig plan moeten voorkomen) worden gegenereerd voor het ground truth domein. Als een gegenereerd plan in $D'$ geen enkel actie uit een landmark-set bevat, wordt dit als feedback teruggekoppeld.

3. Zoekstrategie in Feedbackruimte

In plaats van willekeurig feedback te kiezen, onderzoeken de auteurs een heuristische zoektocht over de ruimte van mogelijke feedbackberichten:

Boomstructuur: De zoektocht wordt gemodelleerd als een boom waarbij de wortel het initiële domein is. Kinderen van een knooppunt zijn nieuwe domeinen gegenereerd door specifieke feedbackberichten toe te passen.
Heuristiek: De zoektocht gebruikt een best-first search strategie. De score van een knooppunt wordt bepaald door:
- $G$ : De diepte van de knooppunt in de boom.
- $H$ : Het aantal ongeldige plannen in het gegenereerde domein (hoe minder fouten, hoe beter).
Pipelines: Er worden verschillende pipelines vergeleken:
- Geen feedback (N): Baseline.
- Willekeurige single feedback (LR, VR, LVR): Eén willekeurig feedbackbericht per iteratie.
- Zoektocht met feedback (LS, VS, LVS): Meerdere feedbackberichten worden gegenereerd, en de beste wordt geselecteerd op basis van de heuristiek.

4. Evaluatiemethode

Om menselijke evaluatie te vermijden, gebruiken de auteurs een aangepaste versie van Heuristic Domain Equivalence (HDE).

HDE vergelijkt het gegenereerde domein ( $D'$ ) met het ground truth domein ( $D$ ) door plannen te wisselen.
Het meet hoeveel plannen die geldig zijn in $D$ ook geldig zijn in $D'$ (voorwaartse richting) en vice versa (achterwaartse richting).
Een HDE-score van 100% impliceert dat de domeinen functioneel equivalent zijn voor de geteste problemen.

Kernbijdragen

Framework voor Feedback-gebaseerde Zoeking: Een nieuw framework dat modelruimte-reasoning ziet als een zoektocht in de ruimte van feedbackberichten, in plaats van een lineair iteratief proces.
Combinatie van Feedbacktypes: Het onderzoek combineert voor het eerst systematisch landmark-feedback en plan-validatie-feedback binnen dezelfde zoekstructuur.
Automatische Evaluatie: Het gebruik van HDE als een robuuste, automatische maatstaf voor domeinkwaliteit zonder menselijke tussenkomst.
Generalisatie: Evaluatie op een breed scala aan domeinen, inclusief obscure en volledig nieuwe domeinen die niet in de trainingsdata van de LLM's voorkomen.

Resultaten

De experimenten zijn uitgevoerd op diverse domeinen (o.a. Blocks, Hiking, Miconic, Pacman) met drie verschillende taalmodellen (gpt-5-nano, gpt-5-mini, deepseek-chat).

Feedback vs. Baseline: Feedback leidt over het algemeen tot een significante verbetering in de HDE-score ten opzichte van de "geen feedback" baseline.
Complementaire Sterktes: Er is geen enkel type feedback dat altijd het beste presteert. Landmark-feedback en plan-validatie-feedback hebben complementaire sterke punten; sommige domeinen profiteren meer van het ene type dan van het andere.
Zoektocht vs. Willekeur: Systematische zoektocht (LS, VS, LVS) presteert over het algemeen beter dan willekeurige selectie (LR, VR, LVR), maar er zijn uitzonderingen. In sommige gevallen (bijv. het 'hiking' domein) presteerde willekeurige selectie beter dan de heuristische zoektocht, wat suggereert dat de heuristiek niet altijd perfect is.
Perfecte Scores: De combinatie van beide feedbacktypes met zoektocht (LVS) met het model gpt-5-mini slaagde erin om voor elk getest domein minstens één keer een domein te genereren met een 100% HDE-score.
Modelverschillen: Verschillende LLM's reageren verschillend op feedbacktypes; er is geen "one-size-fits-all" strategie.

Betekenis en Toekomstperspectief

Dit werk toont aan dat het combineren van symbolische feedbackmechanismen met zoekstrategieën de kwaliteit van automatisch gegenereerde planningsdomeinen aanzienlijk kan verbeteren. Dit maakt het mogelijk om PDDL-domeinen te genereren die direct inzetbaar zijn in praktische planners, zelfs voor domeinen die niet in de trainingsdata van de LLM zitten.

De bevinding dat simpele landmark-feedback net zo effectief kan zijn als gedetailleerde planvalidatie, heeft belangrijke implicaties voor de toegankelijkheid van planningsystemen voor niet-experts. Toekomstig werk richt zich op het onderzoeken van andere feedbacktypes (zoals invarianten), het optimaliseren van zoekstrategieën voor complexere zoekruimtes, en het uitvoeren van gebruikersstudies om de bruikbaarheid voor niet-experts te valideren.