Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der blinde Pilot im Sturm

Stell dir vor, du bist ein Pilot, der ein Flugzeug steuern soll. Normalerweise hast du einen perfekten Blick aus dem Cockpit: Du siehst die Wolken, den Boden und den Horizont. Das ist wie ein MDP (ein mathematisches Modell, bei dem alles sichtbar ist).

Aber in der echten Welt ist das anders. Stell dir vor, dein Cockpit ist voller Rauch, die Fenster sind beschlagen oder es regnet so stark, dass du nichts siehst. Du hast nur ein paar verrätselte Hinweise: ein wackelndes Instrument, ein Geräusch im Motor. Das nennt man POMDP (Partially Observable Markov Decision Process). Du musst Entscheidungen treffen, ohne die volle Wahrheit zu kennen.

Frühere KI-Modelle waren wie Piloten, die nur auf das aktuelle Instrumentenschaukellten. Wenn das Instrument gerade verrückt spielt (wegen eines Sturms), machen sie einen Fehler. Sie haben kein Gedächtnis für das, was vorher passiert ist.

Die Lösung: Ein Gedächtnis mit einem Unterschied

Die Forscher von der Cranfield University haben eine KI entwickelt, die wie ein erfahrener Pilot mit einem Gedächtnis (einem RNN/LSTM) funktioniert. Sie erinnert sich an die letzten 10 oder 20 Sekunden des Fluges, um zu verstehen, ob das wackelnde Instrument ein echter Defekt ist oder nur ein vorübergehender Sturm.

Aber hier kommt der geniale Teil ihrer Entdeckung:

1. Nicht nur das Sehen, sondern auch das Tun

Die meisten Piloten (KIs) schauen nur auf die Instrumente (Beobachtungen). Diese Forscher sagten: „Moment mal! Wenn ich das Steuer nach links drehe (eine Aktion mache) und das Flugzeug trotzdem nach rechts wackelt, dann weiß ich: Da ist ein Windstoß!"

Sie haben der KI beigebracht, nicht nur zu schauen, was sie sieht, sondern auch zu erinnern, was sie getan hat.

Die Analogie: Stell dir vor, du versuchst, einen Tisch in einem dunklen Raum zu finden.
- Ohne Aktions-Gedächtnis: Du tastest nur mit den Händen. Wenn du an eine Wand stößt, weißt du nicht, ob du gerade gegen die Wand gestoßen bist oder ob die Wand einfach da war.
- Mit Aktions-Gedächtnis: Du weißt: „Ich habe gerade einen Schritt nach vorne gemacht." Wenn du jetzt an eine Wand stößt, weißt du: „Ah, die Wand ist genau einen Schritt entfernt." Das macht dich viel robuster.

2. Der neue Trick: H-TD3 (Der effiziente Assistent)

Normalerweise muss eine KI zwei Dinge gleichzeitig tun:

Der Pilot (Actor): Überlegt, was zu tun ist.
Der Trainer (Critic): Bewertet, ob die Entscheidung gut war.

In alten Systemen musste der Trainer das gesamte Gedächtnis des Piloten (die letzten 20 Sekunden) noch einmal selbst durchrechnen, um zu bewerten. Das ist wie ein Chef, der jeden Brief, den sein Sekretär geschrieben hat, noch einmal selbst tippen muss, um zu prüfen, ob der Inhalt stimmt. Das kostet viel Zeit und Nerven.

Die Forscher haben einen neuen Algorithmus namens H-TD3 erfunden.

Die Analogie: Der Chef (Critic) sagt zum Sekretär (Actor): „Hey, du hast das Gedächtnis schon durchgearbeitet. Gib mir einfach das fertige Fazit (den 'versteckten Zustand') und ich bewerte nur noch die aktuelle Situation."
Der Vorteil: Der Chef muss nicht mehr alles neu lesen. Das spart enorm viel Zeit und Rechenleistung, ohne dass die Qualität der Entscheidung schlechter wird.

Was haben sie herausgefunden?

Sie haben das in einer Simulation getestet (ein Pendel, das man am Kopf balancieren muss, während jemand den Tisch wackelt oder Rauch in die Kameras bläst).

Aktions-Gedächtnis ist Gold wert: KIs, die sich an ihre eigenen Bewegungen erinnerten, waren viel besser darin, den Sturm zu ignorieren und das Pendel aufrecht zu halten. Sie verstanden die Ursache (ich habe gedreht) und die Wirkung (das Pendel schwankt).
Alles in einem Fluss: Es ist besser, die Vergangenheit und die Gegenwart als einen einzigen, fließenden Strom zu betrachten, statt sie künstlich zu trennen.
H-TD3 ist der Schnellste: Der neue Algorithmus lernt fast genauso gut wie die anderen, ist aber viel schneller, weil er den „Fazit-Zettel" des Piloten direkt nutzt.

Fazit für den Alltag

Diese Forschung ist ein wichtiger Schritt, damit Roboter und autonome Autos nicht nur in perfekten Labors funktionieren, sondern auch im echten, chaotischen Leben. Sie lernen, nicht nur zu sehen, was jetzt passiert, sondern zu verstehen, was sie gemacht haben und wie sich das auf die Zukunft auswirkt – und das alles, ohne dabei den Rechner zu überlasten.

Kurz gesagt: Sie haben der KI beigebracht, nicht nur zu schauen, sondern auch zu verstehen, warum sie gehandelt hat.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung, Deep Reinforcement Learning (RL) in realen Umgebungen einzusetzen, die durch Partially Observable Markov Decision Processes (POMDPs) charakterisiert sind. In der Praxis ist die vollständige Beobachtbarkeit des Zustands ( $s_t$ ) oft nicht gegeben, da Sensoren verrauscht sind, Daten fehlen oder dynamische Störungen auftreten.

Herausforderung: Herkömmliche RL-Algorithmen gehen von einem MDP aus (vollständige Beobachtbarkeit). Bei POMDPs muss der Agent latente Zustände aus der Historie von Beobachtungen und Aktionen inferieren.
Lücken in der aktuellen Forschung:
- Viele Ansätze nutzen rekurrente neuronale Netze (RNNs), wie LSTMs, als Zustandsschätzer, ignorieren jedoch oft die Einbeziehung vergangener Aktionen in die Eingabe, obwohl diese kausal für Zustandsübergänge sind.
- Die Wahl der Netzarchitektur (z. B. getrennte Eingabekanäle für Vergangenheit und Gegenwart) ist oft nicht optimal interpretiert.
- Der Trainingsaufwand für RNN-basierte Agenten ist hoch, da Trajektorien oft mehrfach (für Actor und Critic) verarbeitet werden müssen.

2. Methodik

Die Autoren untersuchen, wie die Auswahl der Eingabedaten (Beobachtungen vs. Aktionen), die Länge der Historie und die Netzarchitektur die Robustheit und Effizienz beeinflussen.

A. Theoretische Grundlagen

Kausalität und Information: Im Gegensatz zu rein statistischen Modellen, die nur Korrelationen nutzen, betont das Paper die Notwendigkeit kausaler Modelle. Da Aktionen den Zustand beeinflussen, müssen sie in die interne Zustandsrepräsentation ( $s^*_t$ ) einfließen, um die Dynamik des Systems und der Störungen korrekt zu erfassen.
Glaubenszustände (Belief States): Die interne Repräsentation wird als Approximation des Glaubenszustands $b_t$ betrachtet, der auf der vollständigen Informationshistorie $I^C_t = (o_{0:t}, a_{0:t-1})$ basiert.

B. Algorithmische Ansätze

Die Studie baut auf dem TD3-Algorithmus (Twin Delayed Deep Deterministic Policy Gradient) auf und integriert LSTM-Schichten. Es werden drei Hauptvarianten vorgestellt:

LSTM-TD3 (Basis & Modifikation):
- Untersucht den Einfluss der Einbeziehung von Aktionssequenzen ( $a_{t-l:t-1}$ ) neben Beobachtungssequenzen ( $o_{t-l:t-1}$ ).
- Ergebnis: Die Einbeziehung von Aktionen verbessert die Robustheit, insbesondere bei Störungen mit zeitlicher Dynamik (z. B. sinusförmige Wellen).
Architektur-Varianten (Einheitliche Sequenz):
- Statt wie im Original-LSTM-TD3 zwei separate Eingabekanäle (einer für die Historie, einer für den aktuellen Zustand) zu nutzen, werden Vergangenheit und Gegenwart als einheitliche Sequenz behandelt.
- LSTM-TD3 1ha1hc: Ein Eingabekanal für Actor und Critic, der die kombinierte Historie $I'_t$ verarbeitet.
- LSTM-TD3 1ha2hc: Ein Eingabekanal für den Actor, aber zwei Kanäle für den Critic (Historie + aktuelle Aktion separat).
- Hypothese: Eine einheitliche Verarbeitung entspricht besser der Bayes'schen Aktualisierung von Glaubenszuständen.
H-TD3 (Hidden-State-based TD3):
- Innovation: Um den Rechenaufwand zu senken, werden die versteckten Zustände ( $h_t, c_t$ ) des Actor-Netzwerks direkt zur Initialisierung des Critic-Netzwerks genutzt.
- Der Critic muss die Sequenz nicht erneut durchlaufen; er erhält die bereits komprimierte Trajektorieninformation aus dem Actor. Dies vermeidet die doppelte Verarbeitung der Historie.

3. Experimente und Ergebnisse

Die Algorithmen wurden in der OpenAI Gym-Umgebung „Pendulum" unter verschiedenen Störungsbedingungen getestet:

Störungstypen: Zeitliche Bias, zeitliche sinusförmige Wellen, zufällige sinusförmige Wellen, Gaußsches Rauschen und verdeckte Zustände (Fehlen der Winkelgeschwindigkeit).

Wichtige Ergebnisse:

Einfluss der Aktionen: Algorithmen, die Aktionssequenzen einbeziehen, zeigen in dynamischen Umgebungen (insbesondere bei sinusförmigen Störungen) eine signifikant höhere Robustheit und bessere Belohnungswerte als solche, die nur Beobachtungen nutzen.
Länge der Historie ( $l$ ): Eine längere Historie hilft, die Dynamik der Störungen zu erkennen. Bei reinem Rauschen (White Noise) verbessert eine längere Historie die Leistung durch Mittelungseffekte, kann aber zu Overfitting führen.
Architektur-Vergleich:
- Die 1ha1hc-Variante (einheitlicher Kanal) zeigte die beste Robustheit und Leistung, da sie die Sequenzinformation konsistenter verarbeitet.
- H-TD3 erreichte eine vergleichbare Leistung wie die Varianten mit Aktionssequenzen (außer bei starkem Rauschen), reduzierte aber die Trainingszeit pro Iteration erheblich, da der Critic die Sequenzverarbeitung überspringt.
Generalisierung: In Umgebungen, die während des Trainings nicht gesehen wurden (z. B. Kombinationen von Sinuswellen), zeigten die Modelle, die auf dynamischen Störungsmodellen trainiert wurden, gute Generalisierungsfähigkeit, scheiterten jedoch bei reinem, nicht-dynamischem Rauschen.

4. Hauptbeiträge

Nachweis der Notwendigkeit von Aktionssequenzen: Die Studie belegt theoretisch und empirisch, dass die Einbeziehung vergangener Aktionen in die RNN-Eingabe die Robustheit von RL-Agenten in POMDPs erhöht, da kausale Zusammenhänge besser erfasst werden.
Optimierte Netzarchitektur: Die Einführung von Architekturen, die Vergangenheit und Gegenwart als eine einzige Sequenz behandeln (statt getrennter Kanäle), verbessert die Lernleistung und entspricht besser der Theorie der Glaubenszustände.
H-TD3 Algorithmus: Entwicklung eines neuen Algorithmus, der die versteckten Zustände des Actors teilt, um den Critic zu initialisieren. Dies reduziert den Rechenaufwand drastisch, ohne die Leistung signifikant zu beeinträchtigen.
Umfassende Evaluation: Systematische Tests unter verschiedenen Störungsarten (dynamisch vs. statisch, korreliert vs. unkorreliert) zur Bewertung von Robustheit und Generalisierung.

5. Bedeutung und Fazit

Das Paper leistet einen wichtigen Beitrag zur Überbrückung der Lücke zwischen theoretischem RL und realer Anwendung in unsicheren Umgebungen.

Robustheit: Es zeigt, dass Agenten durch die korrekte Modellierung von Kausalität (Einbeziehung von Aktionen) und die Nutzung von RNNs widerstandsfähiger gegen dynamische Störungen werden.
Effizienz: Der vorgeschlagene H-TD3-Ansatz löst ein zentrales Problem bei RNN-basiertem RL: den hohen Trainingskosten. Durch das Teilen von Hidden States wird die Skalierbarkeit für komplexe Aufgaben verbessert.
Zukunftsperspektive: Die Arbeit legt den Grundstein für RL-Systeme, die nicht nur in simulierten Umgebungen, sondern auch in der realen Welt mit unvorhersehbaren Störungen operieren können. Zukünftige Arbeiten sollten sich auf die Generalisierung über verschiedene Störungstypen hinweg konzentrieren.