Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr klugen, aber manchmal etwas verwirrten Koch (dem KI-Modell) beibringen, wie man ein komplexes Gericht zubereitet. Du beschreibst ihm das Rezept nur mit Worten: „Nimm etwas Mehl, füge Eier hinzu und back es."

Das Problem ist: Der Koch schreibt dir zwar eine Liste auf, aber sie ist oft unvollständig oder enthält Fehler. Vielleicht vergisst er, dass man den Ofen vorheizen muss, oder er benutzt Zutaten, die nicht zusammenpassen. Das Ergebnis ist kein leckeres Gericht, sondern ein Chaos.

Genau dieses Problem lösen die Autoren dieses Papers. Sie wollen, dass KI automatisch Planungs-Regelwerke (in der Fachsprache „PDDL-Domänen") aus einfachen Textbeschreibungen erstellt. Diese Regelwerke sind wie die „Gesetze der Physik" für Roboter oder Software, damit diese wissen, was sie tun dürfen und was nicht.

Hier ist die einfache Erklärung ihrer Lösung, verpackt in ein paar Bilder:

1. Das Problem: Der Koch, der nicht zuhört

Früher haben Forscher versucht, die KI einfach einmal zu bitten, das Rezept zu schreiben. Das Ergebnis war oft: Die KI hat die Grammatik richtig, aber die Logik ist falsch. Der Koch sagt: „Ich backe den Kuchen", aber er hat vergessen, den Teig zu mischen.

2. Die Lösung: Ein Feedback-System mit zwei Werkzeugen

Die Autoren haben eine neue Methode entwickelt, bei der die KI nicht einfach nur einmal schreibt, sondern iterativ verbessert wird. Sie nutzen zwei Arten von „Korrekturhinweisen" (Feedback), um dem Koch zu helfen:

Werkzeug A: Die „Landmarken" (Meilensteine)
Stell dir vor, du planst eine Wanderung. Ein Meilenstein ist ein Punkt, den du auf jeder möglichen Route passieren musst. Zum Beispiel: „Du musst den Fluss überqueren, bevor du den Berg besteigst."
- Wie es funktioniert: Die KI prüft: „Habe ich in meinem Plan eine Aktion, die den Fluss überquert?" Wenn nein, sagt das System: „Hey, du hast den Fluss vergessen! Füge eine Aktion hinzu."
- Der Vorteil: Das ist wie ein grober Kompass. Es sagt dir, ob du auf dem richtigen Weg bist, ohne jedes Detail zu prüfen.
Werkzeug B: Der „Plan-Validator" (Der strenge Prüfer)
Das ist wie ein Testlauf. Die KI nimmt einen konkreten Plan (z. B. „Gehe nach links, dann nimm den Schlüssel") und führt ihn im Kopf aus.
- Wie es funktioniert: Wenn der Plan scheitert (z. B. „Du kannst den Schlüssel nicht nehmen, weil die Tür noch verschlossen ist"), gibt das System eine detaillierte Fehlermeldung: „Aktion X funktioniert hier nicht, weil Voraussetzung Y fehlt."
- Der Vorteil: Das ist sehr präzise, aber auch sehr aufwendig.

3. Die Magie: Die Suche im „Feedback-Raum"

Das ist der kreativste Teil der Arbeit. Früher haben Forscher einfach zufällig einen Fehler ausgewählt und die KI gebeten, ihn zu korrigieren. Das ist wie ein Schüler, der blind im Dunkeln nach dem Lichtschalter sucht.

Die Autoren haben stattdessen eine intelligente Suche eingeführt. Stell dir vor, du bist in einem Labyrinth mit vielen Gängen. Jeder Gang ist eine mögliche Korrektur (Feedback).

Die alte Methode (Zufall): Du läufst einfach einen zufälligen Gang entlang. Vielleicht führt er zum Ausgang, vielleicht in eine Sackgasse.
Die neue Methode (Heuristische Suche): Du hast eine Art „Schnüffelhund" (einen Algorithmus), der dir sagt: „Geh diesen Gang! Hier ist die Chance am größten, dass du das Ziel erreichst."

Die KI probiert also verschiedene Korrekturhinweise aus, bewertet, welcher Weg am vielversprechendsten ist, und folgt dann diesem Weg, um das perfekte Regelwerk zu finden.

4. Das Ergebnis: Bessere Rezepte für Roboter

Die Forscher haben dies an vielen verschiedenen „Rezepten" getestet – von einfachen Blockstapeln bis hin zu komplexen Pac-Man-Spielen.

Ergebnis: Mit Feedback (besonders mit der intelligenten Suche) werden die von der KI erstellten Regelwerke viel besser.
Der Clou: Mit ihrer besten Methode (eine Kombination aus Meilensteinen und Plan-Prüfung + der intelligenten Suche) konnten sie für jedes getestete Szenario mindestens einmal ein perfekt funktionierendes Regelwerk erstellen. Das war vorher kaum möglich.

Zusammenfassung in einem Satz

Statt die KI einfach nur einmal zu bitten, ein komplexes Regelwerk zu schreiben, geben ihr die Autoren einen intelligenten Korrektur-Assistenten, der ihr sagt, wo ihre Pläne Lücken haben, und ihr hilft, den besten Weg zu finden, diese Lücken zu schließen – ähnlich wie ein erfahrener Koch, der einem Lehrling hilft, aus einem chaotischen Rezept ein Meisterwerk zu machen.

Dieser Ansatz macht es viel einfacher, KI-Systeme für reale Aufgaben (wie Robotik oder Logistik) einzusetzen, da man nicht mehr manuell tausende Zeilen Code schreiben muss, sondern nur noch eine natürliche Beschreibung liefert.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die automatische Generierung von Planungsdomänen (in PDDL – Planning Domain Definition Language) aus natürlichen Sprachbeschreibungen bleibt trotz des Aufkommens von Large Language Models (LLMs) und Reasoning-Modellen ein offenes Problem. Zwar können LLMs Domänenmodelle syntaktisch korrekt generieren, diese sind jedoch oft semantisch fehlerhaft und für den praktischen Einsatz ungeeignet. Bestehende Ansätze zur Verbesserung nutzen Feedback-Mechanismen (z. B. durch Plan-Validierung oder Umgebungsinteraktion), leiden aber oft unter folgenden Einschränkungen:

Abhängigkeit von einer einzigen Feedback-Art.
Generierung von zusätzlichen Komponenten (Probleme, Pläne), was zu kumulativen Fehlern führt.
Nutzung von Benchmarks mit begrenztem Umfang, die keine Generalisierung auf komplexe oder neue Domänen garantieren.

Das Ziel dieser Arbeit ist es, die Qualität von LLM-generierten Planungsdomänen durch den Einsatz von symbolischem Feedback (insbesondere Landmarks und Plan-Validierung) und eine heuristische Suche im Raum der Feedback-Nachrichten zu verbessern.

Methodik

Die Autoren stellen einen agenticen Framework vor, der die Generierung von Domänen als Suchproblem im „Feedback-Raum" behandelt. Der Prozess gliedert sich in zwei Hauptphasen:

Initiale Domänenkonstruktion:
- Das LLM erhält eine natürliche Sprachbeschreibung der Domäne ( $D_{NL}$ ), bestehend aus einer allgemeinen Beschreibung, Definitionen von Prädikaten und Aktionen.
- Es generiert schrittweise PDDL-Aktionen unter Berücksichtigung von Typen und Prädikaten.
- Ein syntaktischer Validator (PDDL-Parser) sorgt für korrekten Code; bei Fehlern wird das Modell zur Korrektur aufgefordert.
Domänen-Verfeinerung durch Feedback und Suche:
- Feedback-Quellen:
  - Plan-Validierung (VAL): Überprüfung, ob vorgegebene Pläne (aus der Ground-Truth-Domäne) in der generierten Domäne noch gültig sind. Fehler werden als Feedback-Nachrichten (z. B. fehlende Vorbedingungen oder falsche Effekte) zurückgemeldet.
  - Landmarks: Nutzung von disjunktiven Aktions-Landmarks (aus der Ground-Truth), die in allen gültigen Plänen auftreten müssen. Wenn ein generierter Plan keine der geforderten Landmark-Aktionen enthält, wird dies als Feedback genutzt.
- Suchstrategien:
  - Random Single: Zufällige Auswahl einer Feedback-Nachricht zur Verfeinerung.
  - Heuristische Suche (Best-First Search): Anstatt zufällig zu wählen, wird ein Suchbaum über den Raum möglicher Feedback-Nachrichten aufgebaut. Jeder Knoten repräsentiert eine generierte Domäne. Die Suche bewertet Knoten basierend auf einer Heuristik $H$ (Anzahl ungültiger Pläne/Landmarks) und der Tiefe $G$ . Das Ziel ist es, den Pfad zu einer Domäne mit $H=0$ (keine Fehler) effizient zu finden.
- Evaluierte Pipelines: Die Studie vergleicht Baselines (kein Feedback) mit verschiedenen Kombinationen aus Landmark-Feedback (L), Plan-Feedback (V) und Suchstrategien (Random vs. Search), z. B. LS (Landmark + Search), VS (Plan + Search) und LVS (Kombination + Search).
Evaluation:
- Metrik: Es wird eine modifizierte Version des Heuristic Domain Equivalence (HDE)-Maßes verwendet. HDE vergleicht die Menge der Pläne in der Ground-Truth-Domäne mit denen in der generierten Domäne in beide Richtungen (Forward: Ground-Truth-Pläne in generierter Domäne; Backward: Generierte Pläne in Ground-Truth-Domäne). Ein Score von 100 % bedeutet perfekte Äquivalenz.
- Datensatz: Der Datensatz umfasst klassische Domänen (z. B. Blocks, Miconic) sowie obskure und völlig neue Domänen (z. B. Hiking, Pacman-Varianten), die nicht im Trainingsdaten der LLMs enthalten sind.

Wichtige Beiträge

Framework für Feedback-gesteuerte Suche: Einführung eines neuen Paradigmas, das die Optimierung von Domänenmodellen als Suche im Raum der Feedback-Nachrichten formuliert, anstatt nur lineare Iterationen zu nutzen.
Vielfalt der Feedback-Mechanismen: Systematische Untersuchung und Kombination von zwei starken symbolischen Feedback-Quellen: Plan-Validierung (VAL) und Landmarks.
Automatisierte Evaluation: Anwendung des HDE-Maßes zur vollautomatischen Bewertung der semantischen Korrektheit ohne menschliche Eingriffe.
Generalisierung: Demonstration der Methode auf einer breiten Palette von Domänen, einschließlich solcher, die für LLMs völlig neu sind.

Ergebnisse

Die Experimente wurden mit verschiedenen Modellen (gpt-5-nano, gpt-5-mini, deepseek-chat) durchgeführt:

Feedback vs. Baseline: Feedback-Mechanismen verbessern die Qualität der generierten Domänen signifikant im Vergleich zur „No Feedback"-Baseline (R1).
Kombination von Feedback: Die Kombination von Landmark- und Plan-Feedback (LVS) führt in vielen Fällen zu den besten Ergebnissen, wobei keine einzelne Feedback-Art alle anderen dominiert (R2, R3).
Suche vs. Zufall: Die heuristische Suche (LS, VS, LVS) führt im Durchschnitt zu besseren Ergebnissen als reine Zufallsstrategien (Random Walk), insbesondere bei der Erreichung von 100 % HDE-Scores.
- Hinweis: Es gibt Ausnahmen, bei denen die Zufallsstrategie in spezifischen Domänen (z. B. „hiking" oder „flow") besser abschneidet, was auf die Komplexität des Suchraums hindeutet.
Leistungsfähigkeit: Mit gpt-5-mini und der LVS-Strategie (Landmark + Plan + Search) gelang es, für jede getestete Domäne mindestens einmal eine perfekt korrekte Domäne (100 % HDE) zu generieren.

Bedeutung und Ausblick

Diese Arbeit zeigt, dass die Integration von symbolischem Feedback und heuristischer Suche die Zuverlässigkeit von LLMs bei der Generierung formaler Planungsmodelle drastisch steigern kann.

Praktische Relevanz: Da einfache Landmark-Feedbacks oft genauso effektiv sind wie detaillierte Plan-Validierung, wird die Generierung von PDDL für Nicht-Experten zugänglicher.
Zukunft: Die Autoren planen, weitere Feedback-Arten (z. B. Invarianten) zu erforschen und die Methode in realen Planungsszenarien sowie durch Nutzerstudien zu validieren.

Zusammenfassend beweist das Paper, dass „Model Space Reasoning as Search in Feedback Space" ein vielversprechender Ansatz ist, um die Lücke zwischen natürlicher Sprachbeschreibung und einsatzbereiten, formal korrekten KI-Planungsmodellen zu schließen.

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

1. Das Problem: Der Koch, der nicht zuhört

2. Die Lösung: Ein Feedback-System mit zwei Werkzeugen

3. Die Magie: Die Suche im „Feedback-Raum"

4. Das Ergebnis: Bessere Rezepte für Roboter

Zusammenfassung in einem Satz

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Ausblick

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas