Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du planst eine große Reise. In der klassischen Welt des „Automated Planning" (automatisierte Planung) hast du eine feste Liste von Orten, die du besuchen kannst, und eine feste Liste von Verkehrsmitteln: Bus, Zug oder Flugzeug. Das ist wie ein Schachbrett – endlich viele Felder, endlich viele Züge.

Aber was, wenn deine Reise nicht nur aus festen Stopps besteht, sondern du auch entscheiden musst, wie schnell du fährst, wie viel Benzin du tankst oder wie lange du an einer Station wartest? Diese Entscheidungen sind keine festen Knöpfe mehr, sondern drehbare Regler mit unendlich vielen Einstellungen. Das nennt man „kontinuierliche Steuerparameter".

Das ist das Problem, das diese Forscher lösen wollen: Wie findet man den besten Weg, wenn es unendlich viele Möglichkeiten gibt, einen Schritt zu machen?

Hier ist die Erklärung der Lösung, einfach und mit Analogien:

1. Das alte Problem: Der überfüllte Raum

Bisher haben Computer diese unendlichen Regler eher wie Zwangsbedingungen behandelt. Stell dir vor, du sagst dem Computer: „Du darfst nur fahren, wenn du zwischen 50 und 100 km/h bleibst." Der Computer versucht dann, alle diese Regeln gleichzeitig zu lösen, wie ein Mathe-Genie, das versucht, eine riesige Gleichung aufzulösen. Das funktioniert manchmal, aber es ist oft steif und unflexibel. Der Computer sieht die Geschwindigkeit nicht als eine Entscheidung, die er aktiv trifft, sondern als eine Hürde, die er überwinden muss.

2. Die neue Idee: Der Entdecker mit dem Fernglas

Die Autoren (Ángel, Diego, Enrico und Eva) schlagen einen anderen Weg vor. Sie behandeln diese Regler als echte Entscheidungspunkte.

Stell dir vor, du bist ein Entdecker in einem riesigen, endlosen Wald (dem unendlichen Entscheidungsraum). Du stehst an einer Kreuzung.

Das alte Problem: Du würdest versuchen, jeden einzelnen Pfad, der in den Wald führt, sofort zu untersuchen. Da es aber unendlich viele Pfade gibt (jeder Winkel ist möglich), würdest du ewig stehen bleiben.
Die neue Lösung (S-BFS): Du entscheidest dich für eine Strategie namens „Verzögerte Teil-Expansion".

3. Wie funktioniert die neue Strategie? (Die Metapher)

Stell dir den Algorithmus als einen cleveren Wanderer vor, der einen Koffer voller Notizen (eine Prioritätenliste) bei sich trägt.

Nicht alles auf einmal: Anstatt alle unendlichen Pfade an der Kreuzung zu erkunden, wählt der Wanderer einen zufälligen oder vielversprechenden Pfad aus (das nennt man „Sampling").
Ein Schritt weiter: Er geht diesen einen Schritt, schreibt ihn in sein Notizbuch und kommt an einer neuen Kreuzung an.
Der Trick mit dem Koffer: Jetzt kommt das Geniale: Er geht nicht sofort zurück, um den nächsten Pfad zu suchen. Stattdessen legt er den aktuellen Pfad in seinen Koffer zurück, aber mit einem kleinen Aufkleber (einer „Korrektur").
- Dieser Aufkleber sagt: „Du hast diesen Pfad schon einmal versucht. Wenn du ihn wiederholst, wird es etwas ‚schmerzhafter' (teurer) für dich."
- Das verhindert, dass der Wanderer ewig im Kreis läuft, aber er vergisst den Pfad nicht komplett. Er behält ihn im Hinterkopf, falls er später doch noch gut aussieht.
Wiederholen: Er sucht sich einen anderen Pfad aus, macht einen Schritt, und wiederholt den Prozess.

Durch dieses ständige „Ein- und Auspacken" mit kleinen Strafen für Wiederholungen erkundet der Algorithmus den unendlichen Wald systematisch, ohne verrückt zu werden. Er findet garantiert (mit einer Wahrscheinlichkeit von fast 100 %) einen Weg zum Ziel, wenn einer existiert.

4. Warum ist das besser?

Flexibilität: Der Computer denkt nicht mehr nur in „Ja/Nein"-Regeln, sondern trifft echte Entscheidungen („Ich wähle 73,4 km/h, weil das hier passt").
Effizienz: In Tests hat sich gezeigt, dass diese Methode (genannt S-BFS) oft mehr Probleme löst als die alten Methoden (wie der „NextFLAP"-Planer).
Der Kompromiss: Die alten Methoden finden manchmal kürzere Wege (weniger Aktionen), aber sie scheitern oft an komplexen Problemen. Die neue Methode findet fast immer einen Weg, auch wenn er nicht der absolut kürzeste ist. Das ist wie bei einer Reise: Lieber eine Route finden, die funktioniert, als ewig zu suchen und nie anzukommen.

Zusammenfassung in einem Satz

Die Forscher haben einen cleveren Such-Algorithmus entwickelt, der unendlich viele Möglichkeiten (wie Geschwindigkeit oder Zeit) nicht als unüberwindbare mathematische Wand behandelt, sondern als unendliche Landkarte, die man Stück für Stück, Schritt für Schritt und mit einem klugen System aus „Versuchen und leichtem Bestrafen" erkundet, um sicher ans Ziel zu kommen.

Es ist der Unterschied zwischen dem Versuch, einen Ozean mit einem Eimer zu leeren (die alten Methoden) und dem Bau eines Bootes, das sich langsam aber sicher durch die Wellen bewegt (die neue Methode).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich der automatischen Planung (Automated Planning) erweitern Steuerungsparameter (Control Parameters) die Standard-Aktionsdarstellung durch die Einführung kontinuierlicher numerischer Entscheidungsvariablen. Diese Parameter repräsentieren physikalische Größen, die ein Planer wählen muss, um einen gewünschten Effekt einer Aktion zu erzielen (z. B. die genaue Geschwindigkeit oder die Menge eines Ressourcenflusses).

Das zentrale Problem besteht darin, dass diese Parameter einen unendlichen Entscheidungsraum (infinite decision space) erzeugen. Herkömmliche Zustands-Suchalgorithmen (wie Best-First Search) scheitern hier, da ein Knoten unendlich viele Nachfolger haben kann und somit nicht vollständig expandiert werden kann.
Bisherige State-of-the-Art-Ansätze (wie POPCORN oder NextFLAP) behandeln Steuerungsparameter oft implizit als Nebenbedingungen (Constraints), die gemeinsam mit temporalen und numerischen Restriktionen durch Linear Programming oder Satisfiability Modulo Theories (SMT) gelöst werden. Sie betrachten diese Parameter nicht als explizite Entscheidungspunkte im Suchraum, sondern als zu erfüllende Bedingungen. Andere Methoden nutzen neuronale Netze, um abstrakte Pläne zu konkretisieren, umgehen dabei jedoch die systematische Suche.

Das Ziel dieses Papers ist es, einen Ansatz zu entwickeln, der Steuerungsparameter als explizite numerische Entscheidungspunkte innerhalb eines systematischen Suchschemas behandelt und dabei die Vollständigkeit (Completeness) des Verfahrens garantiert.

2. Methodik: Sampling Best-First Search (S-BFS)

Die Autoren stellen einen neuen Algorithmus vor, der Sampling Best-First Search (S-BFS) genannt wird. Dieser Algorithmus kombiniert Best-First-Search-Strategien mit zwei wesentlichen Modifikationen, um mit unendlichen Räumen umzugehen:

A. Verzögerte partielle Expansion (Delayed Partial Expansions)

Da ein Knoten unendlich viele Nachfolger hat, wird er nicht vollständig expandiert. Stattdessen wird eine Stichprobenfunktion ( $\phi$ ) verwendet, um eine Teilmenge der Nachfolger (ein Paar aus Aktion und Steuerungsparameter-Wert) zu generieren.

Ein Zustand wird nicht sofort als „geschlossen" markiert.
Stattdessen wird er in die offene Liste (Priority Queue) zurückgelegt, um in zukünftigen Iterationen erneut teilweise expandiert zu werden, falls er vielversprechend erscheint.

B. Korrekturfunktion (Rectification Function)

Um sicherzustellen, dass der Algorithmus nicht in Endlosschleifen gerät und dass Knoten, die bereits oft re-evaluierung wurden, nicht die Suche dominieren, wird eine Korrekturfunktion ( $r_h$ ) eingeführt.

Diese Funktion passt den Bewertungswert (Node Evaluation Criterion, NEC) eines Knotens basierend auf der Anzahl der bisherigen partiellen Expansionen an.
Eine typische Form ist $f(s) = g(s) + r_h(n, s)$ , wobei $n$ die Anzahl der Re-Expansionen ist und $r_h$ monoton steigend sein muss, um eine faire Exploration zu gewährleisten.

Axiome und Vollständigkeit

Der Algorithmus wird unter der Annahme einer probabilistischen Vollständigkeit analysiert. Das bedeutet, dass für jedes lösbare Problem die Wahrscheinlichkeit, eine Lösung zu finden, gegen 1 konvergiert, wenn die Anzahl der Schritte gegen unendlich geht.
Dafür müssen zwei Bedingungen erfüllt sein:

Support der Stichprobenfunktion: Die Funktion $\phi$ muss so definiert sein, dass jeder mögliche Nachfolger eine strikt positive Wahrscheinlichkeit hat, ausgewählt zu werden (z. B. durch gleichmäßige oder systematische Stichproben über den Intervallbereich).
Eigenschaften der Korrekturfunktion: $r_h$ muss nach einer gewissen Anzahl von Schritten monoton steigen, um sicherzustellen, dass kein Knoten die Priorität unendlich lange blockiert.

Der Paper definiert zwei spezifische Varianten:

S-G: Basierend auf einer rein heuristischen Bewertung ( $f = r_h$ ).
S-A: Basierend auf Kosten plus Heuristik ( $f = g + r_h$ ), ähnlich wie A*.

3. Wichtige Beiträge

Formalisierung: Die Autoren definieren ein numerisches Planungsproblem mit Steuerungsvariablen als Übergangssystem, bei dem der Entscheidungsraum als Paar aus Aktion und Wertintervall betrachtet wird.
Algorithmus-Design: Entwicklung von S-BFS als erster systematischer Suchalgorithmus, der unendliche Entscheidungsräume durch Stichproben und verzögerte Expansionen handhabt.
Theoretische Garantien: Beweis der probabilistischen Vollständigkeit unter bestimmten Bedingungen für die Stichproben- und Korrekturfunktionen. Zudem wird eine Obergrenze für die Lösungsqualität bei S-A-Algorithmen hergeleitet.
Empirische Evaluation: Umfassender Vergleich mit existierenden Ansätzen (NextFLAP) und Monte-Carlo Tree Search (MCTS).

4. Ergebnisse

Die Experimente wurden auf mehreren Domänen durchgeführt (u.a. CASHPOINT, PROCUREMENT, TERRARIA sowie Erweiterungen von IPC-Domänen wie DRONE und SAILING).

Vergleich mit Baselines:
- NextFLAP: Ein etablierter Planer, der Steuerungsparameter über Optimierung löst. NextFLAP erzeugt oft kürzere Pläne (weniger Aktionen) für kleine Probleme, deckt aber weniger Probleminstanzen ab als S-BFS.
- MCTS (UCB1): Monte-Carlo Tree Search mit Progressive Widening löste sehr wenige Probleme im Vergleich zu den anderen Ansätzen.
- S-BFS: Der vorgestellte Algorithmus löste signifikant mehr Probleminstanzen als NextFLAP und MCTS. S-G (heuristic-only) löste alle 140 getesteten Probleme, während S-A (kostenbasiert) mehr Probleme löste als NextFLAP, aber weniger als S-G.
Einfluss der Parameter:
- Korrekturfunktion: Eine logarithmische Korrektur ( $r_{log}(n) = \log(1+n)$ ) erwies sich als am effektivsten. Sie ermöglichte eine hohe Abdeckung, da sie die Heuristik stärker gewichtet als hohe Strafen.
- Stichprobenstrategie: Systematische und gleichmäßige (uniforme) Stichproben ( $\phi_s, \phi_u$ ) performten besser als heuristisch geführte Stichproben ( $\phi_h$ ). Letztere führte nicht zu besseren Ergebnissen, da die verwendete Heuristik viele Plateaus aufwies, was die geführte Suche effektiv in eine uniforme Suche verwandelte, jedoch mit höherem Rechenaufwand.
Qualität vs. Abdeckung: Während NextFLAP oft kürzere Pläne für lösbare Instanzen generierte, war S-BFS überlegen in der Abdeckung (Coverage), d. h., es fand Lösungen für Probleme, die andere Algorithmen nicht lösen konnten.

5. Bedeutung und Ausblick

Dieses Paper legt den Grundstein für die Behandlung von Steuerungsparametern als explizite Suchentscheidungen anstelle von bloßen Nebenbedingungen.

Paradigmenwechsel: Es zeigt, dass systematische Suche in unendlichen Räumen durch Stichproben und geschickte Korrekturfunktionen machbar ist, ohne auf reine Optimierungsmethoden angewiesen zu sein.
Robustheit: Der Ansatz ist besonders stark bei Problemen, bei denen die Suche nach einer gültigen Lösung (Feasibility) Priorität vor der optimalen Lösung hat.
Zukünftige Arbeit: Die Autoren planen, das Framework auf zeitgesteuerte Planung (PDDL+) mit kontinuierlichen Aktionen zu erweitern und fortschrittlichere Heuristiken für unendliche Entscheidungsräume zu entwickeln.

Zusammenfassend bietet S-BFS eine leistungsfähige Alternative zu bestehenden Constraint-basierten Methoden, insbesondere in Szenarien, in denen die Suche nach einer Lösung in einem hochdimensionalen, kontinuierlichen Raum schwierig ist.