On Sample-Efficient Generalized Planning via Learned Transition Models

Diese Arbeit zeigt, dass die Formulierung von generalisierter Planung als Lernproblem für explizite Übergangsmodelle, die Weltzustände autoregressiv vorhersagen, im Vergleich zu direkten Aktionssequenzvorhersagen eine bessere Out-of-Distribution-Generalisierung bei deutlich geringerem Daten- und Modellbedarf ermöglicht.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man ein Haus aufräumt.

Das alte Problem: Auswendiglernen statt Verstehen
Bisherige KI-Methoden (wie die im Papier erwähnten "Transformer") funktionieren eher wie ein Schüler, der nur die Lösungen für bestimmte Hausaufgaben auswendig gelernt hat.

  • Wenn der Schüler 5 Blöcke aufräumen muss, kennt er die Lösung.
  • Aber wenn du ihn vor 20 Blöcke stellst, gerät er in Panik. Er versucht, die Reihenfolge der Bewegungen zu erraten, ohne wirklich zu verstehen, was passiert, wenn er einen Block bewegt.
  • Das nennt man "Zustands-Drift": Der Roboter glaubt, der Block sei woanders, als er es tatsächlich ist, weil er die physikalischen Regeln der Welt nicht wirklich verstanden hat, sondern nur Muster in den Befehlslisten erkannt hat. Er braucht dafür riesige Datenmengen und extrem große "Gehirne" (Modelle).

Die neue Lösung: Den Roboter zum "Welt-Versteher" machen
Die Autoren dieses Papiers schlagen einen anderen Weg vor. Statt dem Roboter nur zu sagen: "Mach jetzt Schritt 1, dann Schritt 2", lassen sie ihn lernen, wie die Welt sich verändert.

Stell dir das so vor:

  1. Der alte Weg (Aktion-zentriert): Der Roboter lernt eine Liste: "Wenn ich den Ball nehme, muss ich ihn in die Box legen." Er lernt die Befehle.
  2. Der neue Weg (Zustands-zentriert): Der Roboter lernt die Physik. Er lernt: "Wenn ich den Ball nehme, verschwindet er von der Hand und erscheint in der Box." Er lernt, wie sich der Zustand der Welt verändert.

Wie funktioniert das genau? (Die Analogie)

Stell dir vor, du hast einen sehr klugen Assistenten, der ein Wettervorhersage-Modell ist.

  • Der alte Ansatz: Der Assistent sagt dir einfach: "Morgen regnet es, nimm einen Regenschirm. Übermorgen scheint die Sonne, zieh T-Shirt an." Er sagt dir nur, was du tun sollst, basierend auf dem, was er in der Vergangenheit gesehen hat.
  • Der neue Ansatz (dieses Papier): Der Assistent lernt, wie sich das Wetter entwickelt. Er sagt: "Wenn es heute 20 Grad sind und die Luftfeuchtigkeit steigt, wird es morgen wahrscheinlich regnen." Er simuliert die Zukunft im Kopf, bevor er dir einen Ratschlag gibt.

In der KI heißt das:

  1. Lernen der Übergänge: Das Modell lernt eine Funktion, die vorhersagt: "Wenn ich mich in Zustand A befinde und Aktion X ausführe, lande ich in Zustand B."
  2. Rollout (Durchspielen): Anstatt sofort einen Befehl zu geben, "rollt" das Modell die Zukunft im Kopf durch. Es sagt: "Okay, wenn ich das mache, sieht die Welt so aus. Wenn ich dann das mache, sieht sie so aus..."
  3. Der Sicherheits-Check (Neuro-Symbolisch): Hier kommt der Clou. Das Modell ist nicht perfekt. Es könnte sich irren. Deshalb gibt es einen strengen "Korrektor" (einen klassischen Symbol-Planer).
    • Das KI-Modell sagt: "Ich denke, der Block ist jetzt hier."
    • Der Korrektor prüft: "Stimmt das? Ja, das ist physikalisch möglich." -> Okay, führe die Aktion aus.
    • Der Korrektor prüft: "Nein, das ist unmöglich." -> Ignoriere die KI, suche einen anderen Weg.

Warum ist das so toll?

  • Sparsamkeit: Das neue Modell ist winzig (wie ein Taschenrechner) im Vergleich zu den alten Riesen (wie einem Supercomputer). Es braucht viel weniger Daten zum Lernen.
  • Größen-Unabhängigkeit: Das ist der wichtigste Punkt.
    • Stell dir vor, du hast gelernt, wie man mit 3 Lego-Steinen baut.
    • Die alten Modelle scheitern, wenn du 100 Steine hast, weil sie die Liste der 3 Steine auswendig gelernt haben.
    • Das neue Modell hat gelernt, wie Steine aufeinander liegen. Es ist egal, ob es 3 oder 300 Steine sind. Die Regel "Stein A liegt auf Stein B" gilt immer. Das nennt man "Größen-Invarianz".
  • Bessere Generalisierung: Weil es die Regeln der Welt (die "Physik") lernt und nicht nur die Antworten, kann es Probleme lösen, die es noch nie gesehen hat (z. B. viel größere Räume oder mehr Objekte).

Das Ergebnis
Die Autoren haben gezeigt, dass dieser Ansatz in vielen Fällen (wie beim Aufräumen von Blöcken oder beim Navigieren in einem Raum) viel besser funktioniert als die riesigen, teuren Modelle, die nur Befehle auswendig lernen. Sie erreichen fast die gleiche Leistung wie ein klassischer, perfekter Planer, aber mit einem winzigen, effizienten Modell, das auf wenigen Beispielen lernt.

Zusammenfassung in einem Satz:
Statt einem Roboter eine lange Liste von Befehlen auswendig zu lernen, geben wir ihm ein kleines Gehirn, das versteht, wie die Welt funktioniert, damit er sich jede neue Situation selbst ausdenken kann – egal wie groß sie ist.