Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Diese Arbeit untersucht, wie ein agentenbasiertes Sprachmodell-Feedback-Framework in Kombination mit heuristischer Suche im Modellraum die Generierung hochwertiger Planungsdomänen aus natürlichen Sprachbeschreibungen verbessert.

James Oswald, Daniel Oblinsky, Volodymyr Varha, Vasilije Dragovic, Harsha Kokel, Kavitha Srinivas, Michael Katz, Shirin Sohrabi

Veröffentlicht 2026-04-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr klugen, aber manchmal etwas verwirrten Koch (dem KI-Modell) beibringen, wie man ein komplexes Gericht zubereitet. Du beschreibst ihm das Rezept nur mit Worten: „Nimm etwas Mehl, füge Eier hinzu und back es."

Das Problem ist: Der Koch schreibt dir zwar eine Liste auf, aber sie ist oft unvollständig oder enthält Fehler. Vielleicht vergisst er, dass man den Ofen vorheizen muss, oder er benutzt Zutaten, die nicht zusammenpassen. Das Ergebnis ist kein leckeres Gericht, sondern ein Chaos.

Genau dieses Problem lösen die Autoren dieses Papers. Sie wollen, dass KI automatisch Planungs-Regelwerke (in der Fachsprache „PDDL-Domänen") aus einfachen Textbeschreibungen erstellt. Diese Regelwerke sind wie die „Gesetze der Physik" für Roboter oder Software, damit diese wissen, was sie tun dürfen und was nicht.

Hier ist die einfache Erklärung ihrer Lösung, verpackt in ein paar Bilder:

1. Das Problem: Der Koch, der nicht zuhört

Früher haben Forscher versucht, die KI einfach einmal zu bitten, das Rezept zu schreiben. Das Ergebnis war oft: Die KI hat die Grammatik richtig, aber die Logik ist falsch. Der Koch sagt: „Ich backe den Kuchen", aber er hat vergessen, den Teig zu mischen.

2. Die Lösung: Ein Feedback-System mit zwei Werkzeugen

Die Autoren haben eine neue Methode entwickelt, bei der die KI nicht einfach nur einmal schreibt, sondern iterativ verbessert wird. Sie nutzen zwei Arten von „Korrekturhinweisen" (Feedback), um dem Koch zu helfen:

  • Werkzeug A: Die „Landmarken" (Meilensteine)
    Stell dir vor, du planst eine Wanderung. Ein Meilenstein ist ein Punkt, den du auf jeder möglichen Route passieren musst. Zum Beispiel: „Du musst den Fluss überqueren, bevor du den Berg besteigst."

    • Wie es funktioniert: Die KI prüft: „Habe ich in meinem Plan eine Aktion, die den Fluss überquert?" Wenn nein, sagt das System: „Hey, du hast den Fluss vergessen! Füge eine Aktion hinzu."
    • Der Vorteil: Das ist wie ein grober Kompass. Es sagt dir, ob du auf dem richtigen Weg bist, ohne jedes Detail zu prüfen.
  • Werkzeug B: Der „Plan-Validator" (Der strenge Prüfer)
    Das ist wie ein Testlauf. Die KI nimmt einen konkreten Plan (z. B. „Gehe nach links, dann nimm den Schlüssel") und führt ihn im Kopf aus.

    • Wie es funktioniert: Wenn der Plan scheitert (z. B. „Du kannst den Schlüssel nicht nehmen, weil die Tür noch verschlossen ist"), gibt das System eine detaillierte Fehlermeldung: „Aktion X funktioniert hier nicht, weil Voraussetzung Y fehlt."
    • Der Vorteil: Das ist sehr präzise, aber auch sehr aufwendig.

3. Die Magie: Die Suche im „Feedback-Raum"

Das ist der kreativste Teil der Arbeit. Früher haben Forscher einfach zufällig einen Fehler ausgewählt und die KI gebeten, ihn zu korrigieren. Das ist wie ein Schüler, der blind im Dunkeln nach dem Lichtschalter sucht.

Die Autoren haben stattdessen eine intelligente Suche eingeführt. Stell dir vor, du bist in einem Labyrinth mit vielen Gängen. Jeder Gang ist eine mögliche Korrektur (Feedback).

  • Die alte Methode (Zufall): Du läufst einfach einen zufälligen Gang entlang. Vielleicht führt er zum Ausgang, vielleicht in eine Sackgasse.
  • Die neue Methode (Heuristische Suche): Du hast eine Art „Schnüffelhund" (einen Algorithmus), der dir sagt: „Geh diesen Gang! Hier ist die Chance am größten, dass du das Ziel erreichst."

Die KI probiert also verschiedene Korrekturhinweise aus, bewertet, welcher Weg am vielversprechendsten ist, und folgt dann diesem Weg, um das perfekte Regelwerk zu finden.

4. Das Ergebnis: Bessere Rezepte für Roboter

Die Forscher haben dies an vielen verschiedenen „Rezepten" getestet – von einfachen Blockstapeln bis hin zu komplexen Pac-Man-Spielen.

  • Ergebnis: Mit Feedback (besonders mit der intelligenten Suche) werden die von der KI erstellten Regelwerke viel besser.
  • Der Clou: Mit ihrer besten Methode (eine Kombination aus Meilensteinen und Plan-Prüfung + der intelligenten Suche) konnten sie für jedes getestete Szenario mindestens einmal ein perfekt funktionierendes Regelwerk erstellen. Das war vorher kaum möglich.

Zusammenfassung in einem Satz

Statt die KI einfach nur einmal zu bitten, ein komplexes Regelwerk zu schreiben, geben ihr die Autoren einen intelligenten Korrektur-Assistenten, der ihr sagt, wo ihre Pläne Lücken haben, und ihr hilft, den besten Weg zu finden, diese Lücken zu schließen – ähnlich wie ein erfahrener Koch, der einem Lehrling hilft, aus einem chaotischen Rezept ein Meisterwerk zu machen.

Dieser Ansatz macht es viel einfacher, KI-Systeme für reale Aufgaben (wie Robotik oder Logistik) einzusetzen, da man nicht mehr manuell tausende Zeilen Code schreiben muss, sondern nur noch eine natürliche Beschreibung liefert.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →