Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Besturen in de Mist: Een Simpele Uitleg van dit Onderzoek

Stel je voor dat je probeert een auto te besturen, maar je hebt een dikke, ondoorzichtige mist voor jeruit. Je kunt de weg niet zien, je ziet alleen flarden van bomen en andere auto's die langskomen. Bovendien is je stuur soms een beetje vastgeklemd of geeft je gaspedaal een verkeerd signaal. Dit is precies wat een robot of een AI-agent moet doen in een deels waarneembare wereld (in vakjargon: een POMDP). De agent ziet niet alles, en wat hij ziet, is vaak rommelig of verstoord.

Dit paper van onderzoekers van de Cranfield University in het VK gaat over hoe we deze AI-agenten slimmer en sneller kunnen maken in zo'n chaotische omgeving. Hier is de kern van hun ontdekkingen, vertaald naar alledaagse taal:

1. Het Probleem: "Ik heb mijn geheugen nodig!"

In de oude wereld van AI dachten we dat een agent alles kon zien (zoals een auto met een perfect zicht). Maar in de echte wereld is dat niet zo.

De oude aanpak: De agent keek alleen naar wat hij nu zag. "Oh, daar is een boom, ik rem."
Het probleem: Als je mistig is, weet je niet of die boom dichtbij is of ver weg, tenzij je onthoudt wat je een seconde geleden zag.
De oplossing: De onderzoekers gebruiken een RNN (een soort digitaal geheugen, specifiek een LSTM-netwerk). Dit is alsof de agent een notitieboekje heeft waarin hij zijn verleden opschrijft om de huidige situatie beter te begrijpen.

2. De Grote Ontdekking: Vergeet je acties niet!

Tot nu toe keken de meeste AI's alleen naar hun waarnemingen (wat ze zagen). Maar deze paper zegt: "Wacht, vergeet niet wat je zelf hebt gedaan!"

De Analogie: Stel je voor dat je in een donkere kamer loopt.
- Als je alleen kijkt naar wat je voelt (waarneming), weet je niet of je tegen een muur loopt of of je zelf tegen de muur stoot.
- Maar als je ook onthoudt dat je zelf hard tegen de muur hebt geduwd (je actie), snap je pas dat de muur daar staat.
De conclusie: Door zowel te kijken naar wat je ziet als wat je zelf hebt gedaan in het verleden, kan de AI veel beter begrijpen wat er aan de hand is. Het maakt de "mist" doorzichtig.

3. De Drie Nieuwe Manieren om dit te Bouwen

De onderzoekers hebben drie nieuwe manieren bedacht om dit geheugen te bouwen, en ze vergelijken ze met verschillende manieren om een team te leiden:

Optie A (De Twee-Koppige Leiding): De oude methode. De agent heeft twee aparte kanalen: één voor het verleden en één voor het heden. Dit werkt, maar het is alsof je twee verschillende mensen laat praten die niet goed met elkaar communiceren.
Optie B (De Eén-Koppige Leiding): De agent kijkt naar het verleden en het heden als één lange, continue film. Dit werkt beter, omdat het de oorzaak-en-gevolg-relatie (causaliteit) beter begrijpt.
Optie C (De Super-Snelle H-TD3): Dit is de ster van de show!
- Het probleem: Normaal gesproken moet de "trainer" (de criticus) en de "speler" (de actor) allebei de hele film van het verleden opnieuw bekijken om te leren. Dat kost veel tijd en rekenkracht.
- De oplossing: De "speler" heeft de film al bekeken en heeft de samenvatting (de geheugens) in zijn hoofd. De "trainer" zegt: "Geef me gewoon je samenvatting, dan hoef ik de hele film niet opnieuw te kijken."
- Het resultaat: De AI leert bijna net zo goed, maar veel sneller. Het is alsof je een student laat samenvatten wat hij geleerd heeft, zodat de leraar niet alles opnieuw hoeft uit te leggen.

4. Wat hebben ze getest?

Ze hebben dit getest in een simulatie met een zwaaiende pendel (een stok die omhoog moet worden gehouden). Ze hebben de pendel in verschillende soorten "mist" gegooid:

Soms was het beeld vervormd door ruis (witte ruis).
Soms verdwenen bepaalde onderdelen van het beeld (alsof je één oog dichtknijpt).
Soms waren er vreemde, terugkerende trillingen in het beeld.

De uitkomst: De AI's die hun eigen acties onthielden (de "actie-sequenties") waren veel robuuster. Ze vielen minder snel om in de storm. En de nieuwe H-TD3 methode was de snelste in het leren, zonder in te leveren op kwaliteit.

Samenvatting in één zin

Dit onderzoek laat zien dat als je een robot in een rommelige, onzichtbare wereld wilt zetten, je hem niet alleen moet laten kijken naar wat hij ziet, maar ook moet laten onthouden wat hij zelf heeft gedaan; en als je slim bent, kun je de "trainer" en de "speler" laten samenwerken om tijd en energie te besparen.

Het is een stap dichter naar AI die echt werkt in de echte wereld, waar dingen nooit perfect zijn en alles soms een beetje mistig is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Diepe versterkende leer (Deep Reinforcement Learning - DRL) heeft aanzienlijke successen geboekt in continue controletaken, maar deze prestaties rusten vaak op de aanname van een Markov Decision Process (MDP), waarbij de omgeving volledig waarneembaar is. In real-world toepassingen is deze aanname zelden geldig door sensorbeperkingen, ruis en niet-gemodelleerde verstoringen. Dit leidt tot een Partially Observable Markov Decision Process (POMDP).

De kernuitdagingen die in dit paper worden aangepakt zijn:

Onvolledige observatie: Agents moeten latente toestanden afleiden uit interactiegeschiedenis.
Informatiekeuze: Veel bestaande RNN-gebaseerde RL-methoden gebruiken alleen observaties en negeren het verleden van acties, hoewel acties een causale rol spelen in toestandsveranderingen.
Rekenkracht en Architectuur: Het trainen van RNN-gebaseerde agents (zoals in TD3) is computatie-intensief, vooral wanneer lange trajecten moeten worden verwerkt door zowel de actor- als de critic-netwerken. Er is een gebrek aan inzicht in de optimale netwerkarctitectuur voor het verwerken van deze sequenties.

Methodologie

De auteurs onderzoeken hoe de selectie van informatie (observaties vs. acties), de lengte van de geschiedenis en de netwerkarchitectuur de robuustheid en efficiëntie van RL-agents beïnvloeden in dynamisch verstoord omgevingen.

1. Causaliteit en Informatiestaten:
Het paper benadrukt dat voor een robuuste schatting van de toestand (belief state), zowel de geschiedenis van observaties als acties nodig is. Acties hebben een causale invloed op de overgang naar de volgende toestand. Het doel is een interne representatie ( $s^*_t$ ) te genereren die de dynamiek van het systeem en de verstoringen modelleert.

2. Experimentele Opstelling:
De methoden worden getest in de "Pendulum"-omgeving uit OpenAI Gym met vijf verschillende verstoringsscenario's:

Tijdelijke bias (constante offset).
Tijdelijke sinusgolf.
Willekeurige sinusgolf.
Gaussisch ruis.
Verborgen toestand (angular velocity $\dot{\theta}$ is niet waarneembaar).

3. Netwerkarchitecturen:
De auteurs vergelijken en introduceren verschillende varianten van het LSTM-TD3 algoritme:

LSTM-TD3 (Basis): Gebruikt twee inputkanalen (gescheiden verleden en heden) en verwerkt alleen observaties of observaties + acties.
LSTM-TD3 $_{1ha2hc}$ & LSTM-TD3 $_{1ha1hc}$ : Nieuwe architecturen die het verleden en het heden behandelen als één geünificeerde sequentie van informatie (observaties + acties), in lijn met de principes van belief-state constructie.
H-TD3 (Hidden-state-based TD3): Een innovatieve aanpak waarbij de critic-netwerken de verborgen staten ( $h_t, c_t$ ) genereren door de actor-netwerken hergebruiken. In plaats van dat de critic de volledige trajecten opnieuw verwerkt, wordt de LSTM-toestand van de actor gebruikt om de critic te initialiseren.

Belangrijkste Bijdragen

Inclusie van Actie-sequenties: Het paper toont aan dat het toevoegen van historische acties aan de input van RNN's de robuustheid significant verbetert, vooral in omgevingen met dynamische verstoringen, omdat dit causale relaties vastlegt.
Geünificeerde Architectuur: De auteurs bepleiten een architectuur die verleden en heden als één continue sequentie behandelt, in plaats van ze te scheiden in aparte kanalen. Dit leidt tot betere robuustheid.
H-TD3 Algoritme: Een nieuw algoritme dat de rekenkosten drastisch verlaagt door de verborgen staten van de actor te delen met de critic. Dit elimineert de noodzaak om de critic het volledige verleden opnieuw te laten verwerken.
Uitgebreide Evaluatie: Een grondige analyse van de invloed van de lengte van de geschiedenis ( $l$ ) en het type verstoring op de leercurve en generalisatie.

Resultaten

De experimenten leverden de volgende inzichten op:

Robuustheid: Alle algoritmen die acties in de input opneden, presteerden beter dan die welke dat niet deden. Dit geldt vooral voor scenario's met "willekeurige sinusgolven" en "ruis".
Architectuur: De varianten met één inputkanaal (LSTM-TD3 $_{1ha1hc}$ ) toonden over het algemeen de beste robuustheid en optimaliteit, omdat ze de belief-state-update beter volgen.
H-TD3 Performance: H-TD3 bereikte vergelijkbare prestaties als de standaard LSTM-TD3 met acties (behalve in het zeer ruisgevoelige "noise"-scenario, waar het iets minder presteerde door het weglaten van de laatste actie $a_{t-1}$ in de critic-input).
Efficiëntie: H-TD3 toonde een aanzienlijk kortere trainingsduur per iteratie in vergelijking met andere RNN-methoden, omdat de critic geen volledige trajecten hoeft te herspelen.
Generalisatie: Agents getraind op dynamische verstoringen (zoals sinusgolven) generaliseerden goed naar andere dynamische omgevingen (zoals gedempte sinusgolven), maar faalden vaak bij pure witte ruis, wat aangeeft dat het model leert op de dynamiek van de verstoring in plaats van alleen ruis te filteren.

Significantie en Conclusie

Dit onderzoek is significant voor de implementatie van RL in de echte wereld, waar volledige observatie zelden mogelijk is. Het paper demonstreert dat:

Het expliciet opnemen van actiegeschiedenis essentieel is voor het bouwen van een robuuste interne toestand in POMDP's.
De scheiding tussen schatting (estimator) en controle (actuator) in traditionele POMDP-theorie impliciet kan worden toegepast in end-to-end model-free RL door de juiste architectuur.
De H-TD3 methode een praktische oplossing biedt voor het rekenkundige probleem van RNN-RL, waardoor het trainen van complexe agents in dynamische omgevingen haalbaarder wordt zonder in te leveren op prestaties.

De auteurs concluderen dat toekomstig werk zich moet richten op het ontwikkelen van algoritmen die zowel dynamische als statische (ruis) verstoringen gelijktijdig kunnen hanteren om de overgang naar real-world toepassingen verder te versnellen.

Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

1. Het Probleem: "Ik heb mijn geheugen nodig!"

2. De Grote Ontdekking: Vergeet je acties niet!

3. De Drie Nieuwe Manieren om dit te Bouwen

4. Wat hebben ze getest?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression