Safety-critical Control Under Partial Observability: Reach-Avoid POMDP meets Belief Space Control

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Roboter in einem völlig dunklen Raum. Sie wissen nicht genau, wo Sie stehen, und Ihre Sensoren sind wie eine kaputte Taschenlampe, die nur flackert. Ihr Ziel ist es, einen grünen Punkt (das Ziel) zu erreichen, ohne in rote Zonen (Gefahren) zu laufen. Das Problem: Da Sie nicht genau sehen können, wo Sie sind, könnten Sie versehentlich gegen eine Wand laufen oder das Ziel verfehlen.

Dieses Papier beschreibt eine neue Art, wie Roboter in solchen Situationen sicher und klug Entscheidungen treffen können. Die Autoren nennen das eine „Schichten-Architektur", die wie ein gut organisiertes Team aus drei Spezialisten funktioniert.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der Konflikt zwischen Eile und Vorsicht

Frühere Methoden versuchten, alles in einem großen, komplizierten Gehirn zu lösen. Das ist wie ein Dirigent, der gleichzeitig den Takt für eine schnelle Trommel (Sicherheit), eine langsame Geige (Ziel erreichen) und einen Chor, der neue Noten lernt (Information sammeln), dirigieren muss. Das funktioniert oft nicht gut, weil die Trommel schnell schlagen muss, aber die Geige Zeit braucht. Der Roboter wird entweder zu vorsichtig (stehen bleiben) oder zu ungeduldig (in die Wand laufen).

2. Die Lösung: Ein Team aus drei Spezialisten

Die Autoren teilen die Aufgabe auf drei verschiedene Module auf, die wie ein gut eingespieltes Trio arbeiten:

Spezialist A: Der Navigator (Ziel erreichen)

Aufgabe: Er weiß, wo das Ziel grob liegt und sagt: „Wir müssen da lang!"
Analogie: Ein Tourist mit einer groben Karte. Er zeigt die Richtung, ist aber nicht sicher, ob der Weg frei ist.

Spezialist B: Der Detektiv (Information sammeln)

Aufgabe: Da der Roboter nicht genau weiß, wo er ist, muss er erst herausfinden, wo er steht. Er sucht aktiv nach Hinweisen (z. B. durch Anstoßen an Wände oder Scannen).
Die Innovation: Das Papier führt hier eine neue Idee ein: „Belief Control Lyapunov Functions" (BCLF).
Analogie: Stellen Sie sich vor, der Detektiv hat eine unsichtbare „Unsicherheits-Wolke" um sich. Seine Aufgabe ist es, diese Wolke so klein wie möglich zu machen, indem er dorthin geht, wo er die meisten neuen Informationen bekommt. Er nutzt eine mathematische Regel (die Lyapunov-Funktion), die ihm garantiert: „Wenn du diesem Weg folgst, wird deine Unsicherheit garantiert kleiner werden."
Besonderheit: Dieser Detektiv wurde durch „Reinforcement Learning" (Lernen durch Versuch und Irrtum) trainiert. Er hat gelernt, wie man am effizientesten Informationen sammelt, ohne dabei das Ziel aus den Augen zu verlieren.

Spezialist C: Der Sicherheitswächter (Schutz vor Gefahr)

Aufgabe: Er überwacht ständig, ob der Roboter in eine rote Zone (Gefahr) gerät. Wenn ja, greift er sofort ein und korrigiert den Kurs.
Die Innovation: Hier nutzen sie „Belief Control Barrier Functions" (BCBF) kombiniert mit einer statistischen Methode namens „Conformal Prediction".
Analogie: Der Sicherheitswächter trägt eine magische Kugel um den Roboter. Solange die Kugel die rote Zone nicht berührt, ist alles okay. Aber er ist nicht nur ein einfacher Wächter; er ist ein Zukunfts-Wächter. Er berechnet nicht nur, ob der Roboter jetzt sicher ist, sondern garantiert, dass er auch in den nächsten paar Sekunden sicher bleibt, selbst wenn die Sensoren flackern. Er nutzt dabei eine Statistik-Methode, die wie ein „Sicherheitsnetz" funktioniert: „Wir sind zu 99% sicher, dass wir nicht in die Gefahr geraten."

3. Wie das Team zusammenarbeitet

Das Geniale an diesem System ist die Entkopplung:

Der Navigator sagt: „Lauf zum Ziel!"
Der Detektiv sagt: „Moment, ich bin noch zu unsicher. Ich gehe erst kurz zur Wand, um mich zu orientieren."
Der Sicherheitswächter schaut zu: „Okay, solange ihr dabei nicht in die rote Zone rennt, ist das erlaubt. Aber wenn ihr zu nah dran seid, stoppe ich euch sofort."

Wenn der Detektiv genug Informationen gesammelt hat (die Unsicherheits-Wolke ist klein genug), übernimmt der Navigator wieder die volle Kontrolle und bringt den Roboter sicher zum Ziel.

4. Warum ist das so besonders?

Echtzeit-Fähigkeit: Selbst wenn der Roboter Tausende von „Partikeln" (mögliche Positionen) simuliert, laufen die Berechnungen so schnell, dass sie in Echtzeit auf echter Hardware funktionieren.
Wiederverwendbarkeit: Der „Detektiv" (das gelernte Wissen über Informationssammlung) muss nicht neu gelernt werden, wenn sich das Ziel ändert. Er kann in verschiedenen Umgebungen eingesetzt werden.
Hardware-Tests: Die Autoren haben das nicht nur am Computer getestet, sondern auf einer echten Raumfahrt-Plattform (ein Roboter, der auf Luftkissen schwebt, wie im Weltraum). Der Roboter musste sich durch Anstoßen an Wände orientieren und hat dabei sicher sein Ziel erreicht.

Zusammenfassung in einem Satz

Statt einen Roboter zu programmieren, der alles auf einmal versucht, bauen die Autoren ein Team aus einem Navigator, einem lernenden Detektiv und einem zukunftsweisenden Sicherheitswächter, die zusammenarbeiten, damit der Roboter auch im Dunkeln sicher sein Ziel findet, ohne in die Gefahr zu laufen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Safety-critical Control Under Partial Observability: Reach-Avoid POMDP meets Belief Space Control" auf Deutsch.

1. Problemstellung und Motivation

Das Paper adressiert das Problem der Steuerung von Robotern unter partieller Beobachtbarkeit (Partial Observability) in sicherheitskritischen Szenarien. Die zentrale Herausforderung besteht darin, einen Roboter so zu steuern, dass er eine Zielfläche ( $S_g$ ) erreicht, während er gleichzeitig unsichere Bereiche ( $S_a$ ) vermeidet, obwohl der exakte Zustand des Systems unbekannt ist und nur durch verrauschte Sensoren geschätzt werden kann.

Dies wird als Reach-Avoid POMDP (Partially Observable Markov Decision Process) formuliert. Das Hauptproblem bestehender Ansätze liegt in der Koordination dreier oft konfliktärer Verhaltensweisen innerhalb eines einzigen Optimierungsproblems:

Zielerreichung: Langfristige Planung zur Erreichung des Ziels.
Sicherheit: Hochfrequente, reaktive Kontrolle, um Kollisionen zu vermeiden.
Informationsgewinnung (Active Sensing): Aktives Reduzieren der Unsicherheit (Belief), um Zielerreichung und Sicherheit überhaupt erst garantieren zu können.

Herkömmliche Online-POMDP-Löser (z. B. basierend auf Monte-Carlo-Baumsuche) versuchen, alle drei Ziele in einem einzigen Suchbaum zu vereinen. Dies führt jedoch zu Skalierungsproblemen, da die unterschiedlichen Zeitskalen (hohe Frequenz für Sicherheit vs. lange Horizonte für Planung) schwer in einem einheitlichen Rahmen zu handhaben sind.

2. Methodik: Eine geschichtete, zertifikatsbasierte Architektur

Die Autoren schlagen eine geschichtete Kontrollarchitektur vor, die direkt im Belief-Raum (Raum der Wahrscheinlichkeitsverteilungen über den Zustand) operiert. Anstatt alles in einem Schritt zu lösen, werden die Aufgaben in modulare Komponenten zerlegt, die auf unterschiedlichen Frequenzen arbeiten:

A. Belief-Modellierung

Da die exakte Posterior-Verteilung für nichtlineare Systeme nicht in geschlossener Form berechenbar ist, wird eine kontinuierlich-diskrete Partikelfilter-Belief-Dynamik verwendet. Der Belief wird durch eine Menge von $N$ Partikeln repräsentiert, die zwischen Messungen gemäß stochastischer Differentialgleichungen (SDEs) propagiert werden und bei neuen Messungen durch Resampling aktualisiert werden. Dies erlaubt die Handhabung von nicht-gaußschen Verteilungen in hochdimensionalen Räumen ( $>10^4$ Dimensionen).

B. Informationsgewinnung durch Belief Control Lyapunov Functions (BCLF)

Das Ziel der Informationsgewinnung wird als Konvergenzproblem im Belief-Raum formuliert.

Unsicherheitsmetrik: Anstelle von Entropie (die bei Partikelfiltern schlecht approximiert wird) nutzen die Autoren Conformal Prediction, um einen Radius $\epsilon$ um den geschätzten Mittelzustand zu definieren, innerhalb dessen die wahre State mit einer Wahrscheinlichkeit $1-\delta_l$ liegt.
Lernansatz: Die Autoren formalisieren die Suche nach einem gültigen Belief Control Lyapunov Function (BCLF) als Reinforcement Learning (RL) Problem. Sie zeigen theoretisch, dass die optimale Wertefunktion eines RL-Agents (unter bestimmten Bedingungen) als stochastische CLF fungieren kann.
Architektur: Ein RL-Agent lernt eine BCLF, die den Belief in Regionen führt, in denen die Unsicherheit gering genug ist (d.h. der $\epsilon$ -Ball liegt innerhalb des Ziels). Dies wird mit einem referenzbasierten Zustandsregler kombiniert, der den Mittelwert zum Ziel führt, sobald die Unsicherheit niedrig ist.

C. Sicherheit durch Belief Control Barrier Functions (BCBF)

Für die Sicherheit wird ein Filter entwickelt, der sicherstellt, dass die Wahrscheinlichkeit, den unsicheren Bereich zu betreten, über einen endlichen Zeithorizont begrenzt bleibt.

Konformale Vorhersage für Sicherheit: Anstatt nur punktuelle Sicherheitsgarantien zu geben, nutzen die Autoren Conformal Prediction auf den Partikelpfaden, um eine obere Schranke für das Risiko über einen gesamten Zeitintervall zu berechnen.
Sicherheitsfilter: Ein quadratisches Programm (QP) minimiert die Abweichung vom gewünschten Steuerbefehl (aus BCLF und Referenzregler), unter der Bedingung, dass die Top- $p$ Partikel (basierend auf den Konformitäts-Scores) die stochastischen Barrier-Bedingungen erfüllen. Dies garantiert eine Sicherheit von $1-\delta_a$ über den gesamten Horizont.

3. Wichtige Beiträge

Formalisierung der Informationsgewinnung: Die Umwandlung des Problems der aktiven Informationsgewinnung in ein Lyapunov-Konvergenzproblem im nicht-gaußschen Belief-Raum.
Lernen von BCLFs: Eine Methode, um Belief CLFs mittels Reinforcement Learning zu erlernen, inklusive theoretischer Bedingungen, unter denen RL-Wertefunktionen als stochastische CLFs validiert werden können.
Risikobewusste Sicherheitsfilter (BCBF): Entwicklung eines Sicherheitsfilters, der probabilistische Garantien über einen endlichen Zeithorizont bietet (nicht nur punktweise), unter Verwendung von Conformal Prediction und Partikelfiltern.
Modulare Architektur: Ein Entwurf, der Zielerreichung, Informationsgewinnung und Sicherheit entkoppelt, was eine Wiederverwendbarkeit der gelernten BCLFs für verschiedene Aufgaben ermöglicht.
Hardware-Validierung: Erfolgreiche Echtzeit-Implementierung auf einer Raumfahrt-Robotik-Plattform (Air-Bearing-Plattform) mit nicht-gaußschen Beliefs und Dimensionen $>10^4$ .

4. Ergebnisse und Evaluation

Die Methode wurde in Simulationen und auf Hardware evaluiert und mit State-of-the-Art-Methoden (wie CPOMCPOW und CPFT-DPW) verglichen.

Simulationen: In Szenarien wie „Constrained Lightdark", „Constrained Antenna" und „Constrained Bumper" übertraf der vorgeschlagene Ansatz die MCTS-Baselines signifikant in Bezug auf Erfolgsrate (Kombination aus Zielerreichung und Sicherheit).
- MCTS-Methoden scheiterten oft entweder an der Sicherheit (zu konservativ oder zu riskant) oder an der Zielerreichung (zu lange Planungshorizonte ohne ausreichende Unsicherheitsreduktion).
- Der modulare Ansatz erreichte eine Erfolgsrate von fast 100% in den getesteten Szenarien.
Ablationsstudien:
- Die Lyapunov-Koeffizienten ( $c$ und $\eta$ ) dienen als „Tuning-Knopf", um den Kompromiss zwischen schneller Zielerreichung und notwendiger Informationsgewinnung zu steuern.
- Der Ansatz konnte Konflikte zwischen Sicherheitsfilter und Informationsgewinnung erfolgreich auflösen (z. B. durch Resampling oder Wechsel der Richtung bei Stagnation).
- Die gelernte BCLF konnte auf eine völlig neue Aufgabe (kreisförmiges Tracking) übertragen werden, ohne neu trainiert werden zu müssen (nur der Referenzregler und der Sicherheitsfilter wurden angepasst).
Hardware-Experimente: Auf einer schwebenden Raumfahrt-Plattform (Air-Bearings) wurde gezeigt, dass der Roboter autonom Unsicherheiten durch Kollisionen mit Wänden reduziert, um durch enge Korridore zu navigieren. Die Berechnung der QPs erfolgte in Echtzeit (50 Hz für Sicherheit, 10 Hz für Informationsgewinnung) trotz der hohen Dimensionalität des Belief-Raums (8000 Partikel).

5. Bedeutung und Ausblick

Dieses Paper bietet einen skalierbaren und theoretisch fundierten Rahmen für sicherheitskritische Steuerung unter Unsicherheit.

Paradigmenwechsel: Statt alles in einem komplexen POMDP-Solver zu lösen, wird das Problem in handhabbare, spezialisierte Module zerlegt, die auf den richtigen Zeitskalen operieren.
Praktische Anwendbarkeit: Die Fähigkeit, nicht-gaußsche Verteilungen in Echtzeit zu verarbeiten und probabilistische Garantien über endliche Horizonte zu geben, macht die Methode für reale Roboteranwendungen (wie Weltraumrobotik oder autonome Fahrzeuge) hochrelevant.
Zukunft: Die Autoren sehen Potenzial in der Erweiterung auf noch höherdimensionale Räume (z. B. durch Stein-Variational-Particle-Filter) und der Integration von Foundation Models zur effizienteren Belief-Repräsentation.

Zusammenfassend stellt die Arbeit einen bedeutenden Fortschritt dar, der die Lücke zwischen theoretischer Kontrolltheorie (Lyapunov/Barrier-Funktionen) und praktischer Robotik unter Unsicherheit schließt.