GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

Das Paper stellt GenePlan vor, ein Framework, das große Sprachmodelle mit evolutionären Algorithmen kombiniert, um effiziente und generalisierbare PDDL-Planer zu entwickeln, die in Benchmarks mit dem Stand der Technik mithalten und deutlich besser abschneiden als andere LLM-basierte Ansätze.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie müssen einem sehr klugen, aber manchmal etwas chaotischen Assistenten beibringen, wie man komplexe Aufgaben löst – zum Beispiel, wie man in einem riesigen Lagerhaus die richtigen Pakete findet und verpackt, ohne dabei gegen Regale zu laufen.

Das ist im Grunde das, was die Forscher von J.P. Morgan mit ihrer neuen Methode namens GenePlan getan haben. Hier ist die Erklärung, wie das funktioniert, ohne den technischen Fachjargon:

1. Das Problem: Der Assistent ist schlau, aber nicht perfekt

Große Sprachmodelle (wie die KI, die Sie gerade lesen) sind genial im Schreiben von Texten oder Code. Aber wenn es darum geht, logische Pläne zu erstellen (z. B. "Geh zuerst hierhin, dann nimm das, dann geh dorthin"), machen sie oft Fehler oder finden sehr lange, ineffiziente Wege. Es ist, als würde man einem Menschen sagen: "Bringe mir ein Glas Wasser", und er läuft erst durch das ganze Haus, macht einen Umweg durch den Garten und kommt dann zurück, nur um festzustellen, dass er das Glas schon in der Hand hatte.

2. Die Lösung: Ein evolutionärer "Trainingscamp"-Ansatz

GenePlan nutzt eine Idee aus der Biologie: Evolution. Statt dem KI-Assistenten einfach nur eine Aufgabe zu geben und zu hoffen, dass er sie richtig macht, lassen die Forscher ihn in einem digitalen Trainingscamp durchlaufen.

Stellen Sie sich das wie einen Talent-Show-Wettbewerb vor:

  • Die Kandidaten (Die Pläne): Die KI generiert viele verschiedene Python-Programme (das sind die "Pläne"). Jeder Kandidat versucht, ein Problem zu lösen.
  • Der Trainer (Die Bewertung): Jedes Programm wird getestet. Wenn es einen Plan findet, der zu kurz ist (wenige Schritte), bekommt es eine hohe Punktzahl. Wenn es scheitert oder zu viele Schritte braucht, bekommt es eine schlechte Note.
  • Die Züchtung (Evolution): Die schlechtesten Kandidaten werden rausgeworfen. Die besten Kandidaten werden "gekreuzt". Das bedeutet, die KI nimmt die besten Teile von Programm A und die besten Teile von Programm B und mischt sie zu einem neuen, noch besseren Programm C.
  • Die Mutation: Manchmal fügt die KI auch zufällige kleine Änderungen hinzu, um neue, kreative Lösungen zu finden (wie eine zufällige Genmutation in der Natur).

Dieser Prozess wiederholt sich Generation für Generation. Am Ende bleibt nur der "Super-Kandidat" übrig – ein Programm, das die Aufgabe extrem effizient löst.

3. Der Clou: Es lernt eine "Regel", nicht nur eine Antwort

Frühere Methoden haben oft versucht, für ein spezifisches Problem eine Antwort zu finden. GenePlan ist anders. Es lernt eine allgemeine Regel (einen "General Planner").

  • Analogie:
    • Alte Methode: Der Assistent lernt auswendig: "Wenn ich im Zimmer A bin und das Ziel im Zimmer B ist, gehe ich links." Das funktioniert nur für dieses eine Zimmer.
    • GenePlan: Der Assistent lernt das Prinzip: "Wenn ich ein Ziel habe, suche ich den kürzesten Weg dorthin und vermeide Hindernisse." Damit kann er jedes neue Zimmer meistern, das er noch nie gesehen hat, und zwar sofort.

4. Warum ist das so cool?

  • Geschwindigkeit: Sobald das "Super-Programm" einmal trainiert ist (was ein paar Minuten dauert und nur wenige Dollar kostet), kann es neue Probleme in weniger als einer halben Sekunde lösen. Das ist wie ein Rennwagen, der nach dem Startschuss sofort losfährt, während andere erst den Motor anlassen müssen.
  • Qualität: Die Ergebnisse sind so gut wie die der besten menschlichen Experten, die jahrelang an solchen Algorithmen gearbeitet haben.
  • Verständlichkeit: Da das Ergebnis ein Python-Code ist, können Menschen ihn lesen und verstehen. Man sieht genau, warum die KI so entschieden hat. Es ist keine "Black Box".

Zusammenfassung in einem Satz

GenePlan ist wie ein digitaler Darwin, der Tausende von KI-Vorschlägen durchlässt, die schlechten eliminiert und die besten kombiniert, bis ein perfekter, schneller und verständlicher "Meister-Planer" übrig bleibt, der jede neue Herausforderung in einem bestimmten Bereich meistern kann.

Es ist der Beweis dafür, dass man KI nicht nur fragen, sondern sie durch gezieltes "Training" und "Selektion" zu einem echten Problemlöser machen kann.