Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar lustigen Vergleichen.

Das große Ziel: Der perfekte "Kuss" unter Wasser

Stellen Sie sich vor, ein Unterwasser-Roboter (ein AUV) muss wie ein Raumschiff an einer Docking-Station andocken. Das Problem: Unterwasser ist alles chaotisch. Strömungen drücken den Roboter herum, Sensoren sind durch das trübe Wasser getrübt, und wenn er zu hart aufprallt, ist die Mission gescheitert.

Früher haben Ingenieure den Roboter wie einen strengen Lehrer programmiert: "Wenn du 10 Zentimeter links bist, drehe 5 Grad nach rechts." Das funktioniert gut, solange die Welt vorhersehbar ist. Aber im echten Ozean? Da ist das wie ein Tanz mit einem Partner, der ständig die Musik ändert.

Die Lösung der Forscher: Sie haben dem Roboter nicht beigebracht, wie man tanzt, sondern sie haben ihn lernen lassen, wie man tanzt – durch Millionen von Versuchen und Fehlern in einer virtuellen Welt. Das nennt man "Deep Reinforcement Learning" (Tiefes Bestärkendes Lernen).

1. Der Trainingsplatz: Die "Videospiele-Simulation"

Bevor der Roboter ins echte Wasser darf, muss er üben. Normalerweise dauert das Üben ewig, weil man den Roboter jedes Mal physisch bewegen muss.

Die Forscher haben hier einen genialen Trick angewendet:

Die digitale Zwilling: Sie haben den echten Roboter und die Docking-Station in einen Computer kopiert (einen "Digital Twin").
Der Turbo-Modus: Statt einen Roboter zu bewegen, haben sie 20 Roboter gleichzeitig in einem Computer laufen lassen. Stellen Sie sich vor, Sie haben 20 Schüler, die gleichzeitig eine Prüfung schreiben, statt nur einen. Das beschleunigt das Lernen enorm.
Der "Headless"-Modus: Die meisten dieser 20 Roboter laufen im Hintergrund, ohne dass man ein Bild sieht (wie ein unsichtbarer Trainer). Nur einer zeigt das Bild, damit die Forscher sehen können, ob es funktioniert.

Die Analogie: Es ist wie beim Flugsimulator. Ein Pilot fliegt nicht 10.000 Stunden real, um zu lernen, wie man bei Sturm landet. Er fliegt 10.000 Stunden im Simulator, wo er stürzen kann, ohne sich zu verletzen. Hier haben die Forscher den Simulator noch schneller gemacht, indem sie 20 Flugsimulatoren parallel laufen ließen.

2. Der Lehrer: Der "Belohnungs-Algorithmus"

Wie lernt der Roboter? Er bekommt keine Anweisungen wie "Drehe nach links". Stattdessen gibt es ein Belohnungssystem, ähnlich wie bei einem Hundetraining:

Gute Tat: Der Roboter kommt der Docking-Station näher? -> Leckerli! (Positive Punkte).
Schlechte Tat: Er prallt zu hart auf? -> Tadel! (Negative Punkte).
Glatte Bewegung: Er bewegt sich geschmeidig? -> Extra Punkte!

Besonders clever ist die Strafe für "Stöße". Der Roboter lernt schnell, dass er nicht einfach nur "auf die Bremse" drücken soll, sondern dass er seine Bewegung sanft anpassen muss, um weich anzudocken.

3. Der große Sprung: Von der Simulation zur Realität

Das größte Problem bei KI ist oft: "Er kann im Spiel super fliegen, aber in der echten Welt fällt er sofort runter." Das nennt man die "Sim-to-Real-Lücke".

Die Forscher haben hier zwei Dinge getan, um diese Lücke zu schließen:

Echtes Chaos: Sie haben dem Simulator nicht nur perfekte Bedingungen gegeben, sondern auch Rauschen (wie schlechte Sensoren) und Unsicherheiten eingebaut. Der Roboter musste lernen, auch dann zu docken, wenn er nicht genau weiß, wo die Station ist.
Der echte Test: Sie haben den gelernten "Gehirn"-Code auf den echten Roboter in einem großen Wasserbecken (Testtank) geladen.

Das Ergebnis:
Der Roboter hat im Testtank 8 von 10 Versuchen erfolgreich gemeistert! Das ist eine riesige Leistung.

4. Die Überraschung: Der Roboter entwickelt eigene Tricks

Das Coolste an dieser Forschung ist, was der Roboter selbst herausgefunden hat, ohne dass die Forscher es ihm explizit befohlen haben:

Der "Brems-Kick": Wenn der Roboter schnell auf die Station zuläuft, neigt er seinen Kopf (den "Pitch") nach oben, um sich abzubremsen – genau wie ein Skifahrer, der sich in die Schneebretter wirft, um langsamer zu werden.
Der "Zitter-Effekt": Kurz vor dem Andocken zittert der Roboter leicht mit dem Schwanz (Gieren/Yaw). Das klingt chaotisch, hilft ihm aber, sich wie ein Schlüssel in ein Schloss zu drehen und perfekt auszurichten.

Die Metapher: Stellen Sie sich vor, Sie lernen, ein Glas Wasser auf einem Tablett zu tragen. Ein Computerprogramm würde sagen: "Geh geradeaus." Ein gelernter Roboter hingegen lernt: "Wenn ich wackelig werde, mache ich kleine, schnelle Korrekturen, damit das Wasser nicht überläuft." Er entwickelt einen eigenen "Fingerspitzengefühl".

Fazit

Diese Studie zeigt, dass wir KI-Systeme nicht mehr stur programmieren müssen. Stattdessen können wir sie in einer schnellen, digitalen Welt trainieren, wo sie Millionen von Fehlern machen dürfen. Wenn wir sie dann mit der richtigen "Erziehung" (Belohnungssystem) in die reale Welt schicken, können sie komplexe Aufgaben wie das Andocken unter Wasser meistern – und dabei sogar kreative Lösungen finden, die menschliche Ingenieure vielleicht nie gedacht hätten.

Es ist der Beweis dafür, dass der Weg vom Computer in die echte Welt endlich funktioniert, besonders wenn man den Roboter wie einen talentierten Schüler behandelt, der durch Übung lernt, statt durch starre Befehle.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers auf Deutsch:

Titel: Sim-to-Reality-Adaptation für Deep Reinforcement Learning in einer Unterwasser-Docking-Anwendung

Autoren: Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao (Universitat de Girona)

1. Problemstellung

Die autonome Docking-Manöver von Unterwasserfahrzeugen (AUVs) stellen eine komplexe Herausforderung dar, insbesondere unter Berücksichtigung unvorhersehbarer Umweltbedingungen wie Strömungen und Sensorrauschen. Traditionelle Regelungsverfahren wie PID-Controller oder Model Predictive Control (MPC) stoßen hier oft an ihre Grenzen, da sie Schwierigkeiten haben, sich dynamisch an nicht modellierte Störungen anzupassen.

Deep Reinforcement Learning (DRL) bietet zwar eine robuste Alternative, steht jedoch vor zwei Hauptbottlenecks für den praktischen Einsatz:

Hohe Trainingslatenz: Das Training von DRL-Policies erfordert enorme Rechenzeit.
Die "Sim-to-Real"-Lücke: Policies, die in der Simulation trainiert wurden, versagen oft in der realen Welt aufgrund von Diskrepanzen in der Dynamik, Sensorik und Kollisionsmodellierung.

Das Ziel dieser Arbeit ist es, eine nahtlose Übertragung einer DRL-gesteuerten Docking-Policy von einer hochfideligen Simulation auf ein reales AUV (Girona AUV) zu ermöglichen.

2. Methodik

A. Simulationsumgebung (Digital Twin)

Simulator: Es wurde der Stonefish-Simulator verwendet, der realistische hydrodynamische Eigenschaften des Girona AUVs modelliert.
Beschleunigung: Um die Trainingszeit zu verkürzen, wurde Stonefish in ein Multiprocessing-Framework integriert. Dies ermöglichte das gleichzeitige Ausführen von 20 parallelen Trainings-Threads (plus einem Evaluierungs-Thread).
Umgebung: Die Simulation läuft "headless" (ohne grafische Oberfläche) für das Training, was die Geschwindigkeit um das bis zu 5-fache erhöht. Die Umgebung beinhaltet realistische Kollisionsmodelle, Sensorrauschen und Umwelteinflüsse (hier: Ozeanströmungen).
Docking-Station (DS): Das Docking-Objekt wurde vereinfacht, um die Rechenleistung zu optimieren, behält aber die kritischen Führungs-Trichter bei, die einen Toleranzbereich von ±25 cm in X- und Y-Richtung bieten.

B. Problemformulierung (MDP)

Das Docking wurde als Markov-Entscheidungsprozess (MDP) definiert:

Zustandsraum ( $S$ ): Umfasst relative Positionsfehler ( $e_x, e_y, e_z$ $e_{x}, e_{y}, e_{z}$ ), Gierfehler ( $e_\psi$ $e_{ψ}$ ), lineare und Winkelgeschwindigkeiten sowie Beschleunigungen (IMU).
- Wichtig: Um die Sim-to-Real-Lücke zu schließen, wurde Gaußsches Rauschen in die Beobachtungen injiziert. Die Rauschstärke skaliert dynamisch mit der Entfernung zum Ziel und der Sichtbarkeit der Docking-Station (Simulation von USBL- und Kamera-Unschärfen).
Aktionsraum ( $A$ ): Ein 6-DoF-Vektor aus Kräften und Drehmomenten ( $F_x, F_y, F_z, T_r, T_p, T_\psi$ ) im Fahrzeugkoordinatensystem. Das Fahrzeug verteilt diese Befehle auf seine fünf Schubdüsen (Roll-Degree-of-Freedom ist nicht direkt ansteuerbar, bleibt aber im Vektor für allgemeine Formulierung).
Belohnungsfunktion ( $R$ ): Eine Kombination aus mehreren Komponenten:
- $r_{dist}$ : Strafe basierend auf dem Mahalanobis-Abstand (priorisiert X/Y-Achsen).
- $r_{angle}$ : Strafe für Gierfehler.
- $r_{smooth}$ : Belohnung für weiche Übergänge zwischen Aktionen (Vermeidung von Ruckeln).
- $r_{collision}$ : Adaptive Strafe für Kollisionen, basierend auf Beschleunigungsänderungen (vermeidet Mehrfachbestrafung desselben Ereignisses).
- $r_{mission}$ : Hohe Belohnung für erfolgreiches Docking, Strafe für abgebrochene Episoden.

C. Algorithmus

Es wurde Proximal Policy Optimization (PPO) verwendet. Obwohl Soft Actor-Critic (SAC) initial evaluiert wurde, zeigte PPO in physikalischen Tests eine überlegene Stabilität und Leistung. Der Agent wurde in einer Umgebung mit zufälligen Startpositionen trainiert, um Generalisierung zu gewährleisten.

3. Schlüsselergebnisse

A. Simulation

Trainingszeit: Das Training dauerte ca. 3 Stunden auf einer Workstation mit Intel Core i7 und RTX 4060.
Erfolgsrate: Der Agent erreichte eine Erfolgsquote von über 90 % in der Simulation.
Emergentes Verhalten: Der Agent entwickelte ohne explizite Programmierung komplexe Manöver:
- Pitch-basiertes Bremsen: Nutzung des Tauchwinkels (Pitch), um beim Annähern an die Station abzubremsen.
- Gier-Oszillationen (Yaw Oscillations): Kleine Schwingungen in der Gierachse, die das Rutschen in die Führungs-Trichter erleichtern, ohne Kollisionsstrafen auszulösen.

B. Realwelt-Validierung (Testbecken)

Experiment: Der trainierte Agent wurde auf dem realen Girona AUV in einem Testbecken (19x9x5 m) getestet.
Ergebnis: Von 10 durchgeführten Missionen waren 8 erfolgreich (80 % Erfolgsrate).
Transfer: Die im Testbecken beobachteten Trajektorien und die Kraftanforderungen (insbesondere die Gier-Oszillationen) entsprachen stark den Simulationsergebnissen. Dies bestätigt die Wirksamkeit der Sim-to-Real-Adaptation.
Sicherheit: Während der Tests wurden die Kräfte aus Sicherheitsgründen auf 25–50 % der maximalen Kapazität begrenzt.

4. Hauptbeiträge

Multiprocessing-Framework für Stonefish: Anpassung des Stonefish-Simulators für parallele RL-Trainings, was die Lernzeit drastisch reduziert, während realistische Hydrodynamik erhalten bleibt.
Hochfidelige Umgebung: Entwicklung einer Umgebung mit präzisen Kollisionsmodellen, Sensorrauschen und dynamischen Umgebungsstörungen, die speziell für Sim-to-Real-Transfer optimiert ist.
Integration von Servoing und DRL: Kombination von positionsbasiertem visuellen Servoing (3DBM-Marker) mit DRL als robuste Alternative zu klassischen Regelkreisen und Behavior Trees.
Erfolgreicher physikalischer Nachweis: Demonstration des ersten erfolgreichen autonomen Dockings eines AUVs im Testbecken mittels einer rein in der Simulation trainierten DRL-Policy.

5. Bedeutung und Ausblick

Diese Arbeit belegt, dass Deep Reinforcement Learning durch den Einsatz von hochfideligen Digital Twins und sorgfältigem Reward-Design (insbesondere durch die Modellierung von Sensorrauschen und adaptiven Kollisionsstrafen) erfolgreich auf reale Unterwasserplattformen übertragen werden kann.

Die Fähigkeit des Agents, emergente Verhaltensweisen (wie Bremsen durch Pitch und Oszillationen zur Ausrichtung) zu entwickeln, die für klassische Controller schwer zu programmieren sind, unterstreicht das Potenzial von DRL für komplexe, unvorhersehbare Umgebungen.

Zukünftige Arbeiten werden sich auf die Einführung dynamischer Strömungen, beweglicher Docking-Stationen und die Randomisierung der Schubdüsenpositionen während des Trainings konzentrieren, um die Robustheit gegenüber Hardware-Unterschieden weiter zu erhöhen.