Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Roboter, der in einem riesigen, chaotischen Haus arbeiten soll. Ihr Auftrag: „Bring mir den Toaster aus der Küche." Das Problem? Sie können nicht alles sehen. Möbel verdecken die Sicht, und manche Gegenstände sind einfach nicht da, wo Sie sie erwarten.

In der Robotik nennt man das teilweise beobachtbare Planung. Das ist wie ein Schachspiel, bei dem Sie nur einige Figuren sehen können, aber trotzdem den ganzen Zug vorausdenken müssen. Wenn ein Roboter hier „blind" plant, verbringt er viel Zeit damit, Dinge zu suchen, die gar nicht dort sind, oder er rennt von Raum zu Raum, ohne eine Ahnung zu haben, wo er suchen soll.

Die Forscher von diesem Papier haben eine clevere Lösung namens CoCo-TAMP entwickelt. Hier ist die Idee, einfach erklärt:

1. Der „Allwissende Bibliothekar" (Die KI)

Stellen Sie sich vor, Ihr Roboter hat einen unsichtbaren Freund, einen sehr klugen Bibliothekar, der die ganze Welt kennt. Dieser Freund ist eine Large Language Model (LLM) – also eine sehr fortschrittliche KI, die alles über Sprache und Alltag weiß.

Wenn der Roboter fragt: „Wo könnte ein Toaster sein?", antwortet der Bibliothekar nicht mit einem Zufall, sondern mit gesunder Menschenverstand:

„Ein Toaster ist wahrscheinlich in der Küche, nicht im Badezimmer."
„Wenn du eine Banane siehst, ist es wahrscheinlich, dass auch ein Apfel in der Nähe ist (sie mögen sich), aber ein Schraubenzieher eher nicht (die mögen sich nicht)."

2. Die zwei magischen Tricks

CoCo-TAMP nutzt diese KI auf zwei geniale Arten, um den Roboter schlauer zu machen:

Trick Nr. 1: Die Vorhersage (Der Kompass)
Bevor der Roboter überhaupt losläuft, fragt er die KI: „Wo suche ich zuerst?" Die KI sagt: „Geh zur Küche, nicht zum Keller." Das spart dem Roboter enorm viel Zeit, weil er nicht mehr ziellos herumirrt. Er startet mit einer guten Vermutung (einem „Glauben"), wo die Dinge sein könnten.
Trick Nr. 2: Die Verbindung (Das soziale Netzwerk der Objekte)
Während der Roboter arbeitet, passiert Folgendes: Er sieht eine Banane auf dem Tisch. Ohne KI würde er denken: „Okay, Banane gefunden. Was ist mit dem Toaster?" Er würde den Tooster wieder blind suchen.
Aber mit CoCo-TAMP denkt die KI: „Aha! Banane und Apfel sind oft zusammen. Wenn die Banane hier ist, ist der Apfel wahrscheinlich auch hier."
Der Roboter aktualisiert sofort seine Karte: „Ich suche den Apfel jetzt direkt neben der Banane." Das nennt man Co-Location (Zusammenortung).

3. Der „Toggler" (Der Realitäts-Check)

Manchmal ist die KI aber auch ein bisschen zu optimistisch. Wenn der Roboter einen Lichtschalter sieht, denkt die KI vielleicht: „Alle Lichtschalter sind hier!" Das wäre falsch, denn Lichtschalter gibt es in jedem Zimmer.
Deshalb hat CoCo-TAMP einen kleinen Schalter (einen „Toggler"). Wenn die KI merkt, dass ein Objekt überall verstreut sein könnte (wie Lichtschalter oder Schlüssel), schaltet sie die „Zusammen-Ortung"-Regel aus. Der Roboter wird dann wieder vorsichtig und sucht systematisch.

Das Ergebnis: Schneller und schlauer

In Tests hat sich gezeigt, dass dieser Ansatz fantastisch funktioniert:

In Simulationen war der Roboter über 60 % schneller.
In echten Tests mit einem echten Roboterarm war er sogar über 70 % schneller.

Die einfache Metapher:
Ein normaler Roboter ist wie ein Mensch, der in einem dunklen Haus nach seinem Schlüssel sucht und jeden Schrank einzeln durchwühlt, ohne zu wissen, wo er ihn normalerweise ablegt.
Der Roboter mit CoCo-TAMP ist wie ein erfahrener Hausbesitzer, der sagt: „Ich habe den Schlüssel gestern auf dem Küchentisch gelegt, und da ich eine Banane sehe, liegt er bestimmt auch noch dort." Er sucht nicht blind, sondern intelligent.

Zusammenfassend: Die Forscher haben einen Roboter gebaut, der nicht nur rechnet, sondern auch denkt wie ein Mensch, indem er die Welt der Sprache nutzt, um zu verstehen, wo Dinge hingehören. Das macht ihn viel effizienter, wenn er in einer unvollständigen, unsicheren Welt arbeiten muss.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning" auf Deutsch.

1. Problemstellung

Das Paper adressiert das Problem des Partially Observable Task and Motion Planning (PO-TAMP). In realen Umgebungen sind Roboter oft mit Unsicherheiten konfrontiert, da nicht alle Objekte bekannt oder sichtbar sind (z. B. durch Verdeckungen oder begrenzte Sichtfelder).

Herausforderung: Herkömmliche TAMP-Planer, die oft deterministisch arbeiten, scheitern in solchen Szenarien, da sie keine effektiven Strategien zur Informationsgewinnung unter Unsicherheit entwickeln können.
Spezifisches Szenario: Während der Ausführung eines Plans kann ein Roboter unbeabsichtigt objektfremde Dinge beobachten, die von naiven Planern ignoriert werden. Um effizient zu planen, muss der Roboter jedoch „gesunden Menschenverstand" (Common Sense) nutzen, um Wahrscheinlichkeiten über den Ort und die Lage von Objekten zu schätzen, die er aktuell nicht sieht.
Ziel: Die Entwicklung eines Systems, das die belief (Überzeugung) über den Zustand von Objekten (Raum, Oberfläche, Pose) verbessert, um die Anzahl der Neuplanungen (Replanning) und die Gesamtzeit für die Aufgabenerfüllung zu minimieren.

2. Methodik: COCO-TAMP

Die Autoren stellen COCO-TAMP vor, ein hierarchisches Framework, das Large Language Models (LLMs) nutzt, um Common-Sense-Wissen in einen probabilistischen Planungsprozess zu integrieren. Das System kombiniert symbolische Planung mit kontinuierlicher Bewegung und nutzt einen Bayes-Filter zur Zustandsschätzung.

A. LLM-gestützte Initialisierung von Glaubenszuständen (Initial Belief Generation)

Anstatt manuell Regeln für Objektplatzierungen zu definieren, nutzt COCO-TAMP LLMs, um A-priori-Wahrscheinlichkeiten für den Standort von Objekten zu generieren.

Methode: Das Problem wird als Multiple-Choice-Frage (MCQA) formuliert (z. B. „Wo befindet sich ein Toaster? A: Küche, B: Bad...").
Umsetzung: Der LLM wählt die wahrscheinlichste Option basierend auf seiner Trainingsdatenbasis. Die Logits (Wahrscheinlichkeiten) der Token-Vorhersage werden in eine kategorische Verteilung über Räume und Oberflächen umgewandelt. Dies dient als informierter Startpunkt für den Bayes-Filter.

B. Hierarchische Zustandsschätzung (State Estimation)

Der Kern des Systems ist ein hierarchischer Bayes-Filter, der den Zustand $x$ eines Objekts $k$ in drei Ebenen schätzt:

Raum ( $x_r$ ): Diskreter Bayes-Filter.
Oberfläche ( $x_s$ ): Diskreter Bayes-Filter.
Pose ( $x_p$ ): Partikel-Filter (kontinuierlich).

Der Filter aktualisiert diese Glaubenszustände basierend auf Beobachtungen unter Berücksichtigung der Sichtbarkeit (Visibility). Wenn ein Bereich nicht vollständig abgedeckt ist, wird die Wahrscheinlichkeit eines Nicht-Findens nicht als Beweis für das Fehlen des Objekts gewertet.

C. Co-Location-Modell (Miteinander-Platzierung)

Ein entscheidender Innovationsschritt ist die Nutzung von LLM-Einbettungen, um semantische Ähnlichkeiten zwischen Objekten zu nutzen.

Prinzip: Ähnliche Objekte (z. B. zwei Gläser) befinden sich mit hoher Wahrscheinlichkeit am selben Ort, während unähnliche Objekte (z. B. ein Gläser und ein Schraubenzieher) eher getrennt sind.
Umsetzung:
- Der LLM generiert Beschreibungen für Objekte, aus denen Vektoren (Embeddings) extrahiert werden.
- Die Kosinus-Ähnlichkeit dieser Vektoren bestimmt die Stärke der Co-Location-Beziehung.
- Dieser Wert fließt in die Wahrscheinlichkeitsverteilung ein: Wird Objekt A gefunden, steigt die Wahrscheinlichkeit für ähnliche Objekte an diesem Ort, während sie für unähnliche Objekte sinkt.
Co-Location Toggler: Da einige Objekte (z. B. Lichtschalter) über den gesamten Raum verteilt sein können, nutzt das System einen LLM-basierten Mechanismus, um zu entscheiden, ob das Co-Location-Modell für ein spezifisches Objekt aktiviert oder deaktiviert werden soll.

D. Planungs- und Ausführungszyklus

Das System nutzt PDDLStream als unterliegenden TAMP-Planner.

Der LLM liefert initiale Priors.
Der Planer generiert einen Plan, der auch „Beobachtungsaktionen" (detect) enthält. Die Kosten dieser Aktionen werden invers zur aktuellen Glaubenswahrscheinlichkeit gesetzt (teuer, wenn die Wahrscheinlichkeit gering ist; günstig, wenn die Wahrscheinlichkeit hoch ist).
Während der Ausführung werden Beobachtungen gemacht, der Bayes-Filter aktualisiert die Glaubenszustände (unter Nutzung des Co-Location-Modells), und bei Misserfolgen oder neuen Erkenntnissen wird neu geplant (Replanning).

3. Wichtige Beiträge

Interleaved Framework: Ein neuartiges Framework für PO-TAMP, das LLMs nicht als direkte Planer, sondern als Quelle für Common-Sense-Priors und Co-Location-Indizes nutzt.
Hierarchische Schätzung: Eine effiziente Methode zur Kombination von diskreten (Raum/Oberfläche) und kontinuierlichen (Pose) Unsicherheiten, die durch LLM-Wissen gesteuert wird.
Co-Location-Modell: Die Einführung eines Modells, das semantische Ähnlichkeiten nutzt, um die Suche nach Objekten zu beschleunigen, ohne manuelle Regeln zu benötigen.
Robustheit: Das System bleibt auch in adversären Szenarien (wo Common-Sense-Regeln absichtlich verletzt werden) funktionsfähig, da es auf einem probabilistischen Bayes-Filter basiert und nicht blind auf LLM-Aussagen vertraut.

4. Ergebnisse

Die Autoren evaluierten COCO-TAMP in Simulationen (Housekeep-Datensatz) und realen Experimenten mit einem Toyota HSR-Roboter.

Vergleichsgruppen: Es wurden sechs Varianten verglichen, darunter ein Baseline-System (ohne LLM), Systeme nur mit Co-Location, nur mit LLM-Priors (MCQA) und die Kombination (COCO-TAMP).
Simulation:
- COCO-TAMP reduzierte die kumulative Planungs- und Ausführungszeit im Durchschnitt um 62,7 % im Vergleich zur Baseline.
- Die Anzahl der erforderlichen Neuplanungen (Replanning) sank drastisch.
- Die Kombination aus LLM-Priors und Co-Location-Modell erwies sich als überlegen gegenüber isolierten Ansätzen.
Realwelt-Experimente:
- In einem Mock-Apartment reduzierte COCO-TAMP die Zeit von 365 Sekunden (Baseline) auf 100 Sekunden.
- Dies entspricht einer Reduktion von 72,6 %.
Ablation Studies:
- Reine LLM-Updates (LGBU) ohne Bayes-Filter führten zu häufigeren Fehlern und Neuplanungen, was die Notwendigkeit einer probabilistischen Fundierung unterstreicht.
- GPT-4o zeigte die beste Leistung für die MCQA-Generierung.

5. Bedeutung und Fazit

Das Paper demonstriert, wie Large Language Models effektiv als Wissensquelle in klassische robotische Planungsprobleme integriert werden können, ohne die Stabilität und Vollständigkeit des Systems zu gefährden.

Effizienzsteigerung: Durch die Nutzung von Common-Sense-Wissen können Roboter Suchräume drastisch einschränken und effizienter handeln.
Skalierbarkeit: Der Ansatz vermeidet das manuelle Engineering von Regeln für Objektplatzierungen und ist somit auf diverse Umgebungen anwendbar.
Zukunftsperspektive: Die Arbeit legt den Grundstein für Roboter, die in komplexen, unvollständig beobachtbaren Umgebungen (wie Haushalten) autonom und effizient agieren können, indem sie menschliches Weltwissen in mathematische Planungsmodelle übersetzen.

Zusammenfassend zeigt COCO-TAMP, dass die Kombination aus LLM-gestütztem Common Sense und probabilistischer Zustandsschätzung ein vielversprechender Weg ist, um die Lücke zwischen theoretischer Planung und robuster robotischer Ausführung in unsicheren Umgebungen zu schließen.