Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Chef d'Orchestre dans le Brouillard

Imaginez que vous êtes un chef d'orchestre (c'est l'intelligence artificielle ou l'agent) qui doit diriger un orchestre complexe (le monde réel). Votre but est de jouer la partition parfaite pour obtenir le plus de applaudissements (la récompense).

Le problème ? Vous êtes assis dans une pièce avec des oreilles bouchées et des yeux bandés. Vous ne voyez pas tout l'orchestre, et le bruit ambiant (les perturbations) vous empêche d'entendre clairement les instruments. C'est ce que les experts appellent un POMDP (Processus de Décision Markovien Partiellement Observable). En gros, vous ne voyez pas la réalité telle qu'elle est, mais seulement une version floue et bruitée.

Pour réussir, votre cerveau doit deviner ce qui se passe réellement en se basant sur ce qu'il a entendu et vu par le passé. C'est là que l'étude de Cranfield University entre en jeu.

🧠 Le Cerveau qui se Souvient (Les RNN et LSTM)

Dans le passé, les chefs d'orchestre (les algorithmes) avaient une mémoire très courte. Ils regardaient seulement la note qu'ils voyaient maintenant. Résultat : ils rataient souvent le rythme parce qu'ils ne se souvenaient pas de ce qui s'était passé il y a 5 secondes.

Les chercheurs ont donc équipé ces chefs d'orchestre d'un cerveau spécial appelé LSTM (Long Short-Term Memory). C'est comme un carnet de notes magique qui permet de retenir l'histoire entière de la musique pour deviner la prochaine note.

Mais il y avait un problème : ce carnet de notes ne notait que ce que le chef voyait (les observations), mais il ignorait ce que le chef avait fait (les actions).

🎻 L'Idée Géniale : "Ce que j'ai fait compte aussi !"

Les chercheurs se sont dit : "Attendez ! Si je tape du pied (action) et que le violoniste joue faux (observation), c'est peut-être ma faute, pas la sienne !"

Ils ont découvert que pour bien comprendre le monde, il faut donner au cerveau deux types d'informations :

Ce que l'on voit (le bruit, la musique).
Ce que l'on a fait (les coups de baguette, les commandes envoyées).

En ajoutant l'historique de vos propres actions au carnet de notes, le cerveau comprend mieux la causalité (le lien de cause à effet). C'est comme si vous appreniez à distinguer le bruit de la pluie (perturbation) de la mélodie de l'orchestre (la réalité).

🏗️ Trois Nouvelles Façons de Construire le Cerveau

Les chercheurs ont testé trois architectures différentes pour organiser ce cerveau :

L'approche classique (LSTM-TD3) : On donne au cerveau deux entrées séparées : une pour le passé, une pour le présent. C'est un peu comme avoir deux lunettes différentes, l'une pour le passé, l'autre pour le présent. Ça marche, mais c'est un peu lourd.
L'approche unifiée (LSTM-TD3 1ha1hc) : On mélange tout ! On donne au cerveau une seule longue bande de film qui contient le passé et le présent mélangés. Le cerveau apprend lui-même à faire la différence. C'est plus simple et plus robuste, comme si le chef d'orchestre écoutait l'histoire entière d'une seule traite.
L'approche "Super Rapide" (H-TD3) : C'est l'innovation la plus drôle de l'article.
- Imaginez que le chef d'orchestre (l'acteur) et l'auditeur critique (le critique) doivent tous les deux analyser la même partition.
- Normalement, ils relisent tous les deux la partition depuis le début, ce qui prend du temps.
- Avec H-TD3, le chef d'orchestre écrit un résumé de la partition sur un post-it (l'état caché) et le passe au critique. Le critique n'a plus besoin de relire tout le film, il lit juste le résumé et la dernière note.
- Résultat : On gagne énormément de temps de calcul sans perdre en qualité ! C'est comme si un assistant vous résumait un livre entier en une phrase pour que vous puissiez en discuter immédiatement.

🌧️ Les Résultats : Mieux que jamais dans la tempête

Les chercheurs ont testé ces idées dans un simulateur de pendule (un balancier qu'il faut garder debout) avec différents types de "météo" :

Brouillard constant (bruit aléatoire).
Vagues régulières (perturbations prévisibles).
Vagues aléatoires (chaos total).

Ce qu'ils ont découvert :

Les chefs d'orchestre qui ignoraient leurs propres actions (les anciennes méthodes) se perdaient facilement dans le brouillard.
Ceux qui tenaient compte de leurs actions (les nouvelles méthodes) restaient calmes et jouaient juste, même quand il y avait du bruit.
L'algorithme H-TD3 a prouvé qu'on peut être aussi intelligent que les autres, mais beaucoup plus rapide, car il ne perd pas de temps à tout recalculer.

🚀 Conclusion pour le Monde Réel

En résumé, cette étude nous dit que pour créer des robots ou des voitures autonomes capables de fonctionner dans le monde réel (où tout est imprévisible et bruité), il ne suffit pas de leur donner des yeux. Il faut leur apprendre à se souvenir de ce qu'ils ont fait pour comprendre ce qu'ils voient.

Et surtout, on peut rendre ces cerveaux artificiels beaucoup plus efficaces en leur faisant partager leurs "résumés" mentaux, plutôt que de les faire travailler en double. C'est une étape de plus vers des intelligences artificielles qui ne se perdent pas dans le chaos du monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'article aborde le défi de l'application de l'apprentissage par renforcement (RL) profond dans des environnements réels, caractérisés par des processus de décision markoviens partiellement observables (POMDP). Contrairement aux environnements de benchmark idéaux (MDP complets), les applications réelles souffrent de limitations de capteurs, de bruit et de perturbations dynamiques non modélisées. Ces facteurs introduisent des états cachés, rendant l'observation actuelle insuffisante pour prendre une décision optimale.

Les approches actuelles utilisent souvent des réseaux de neurones récurrents (RNN), comme les LSTM, pour estimer les états latents à partir de l'historique des observations. Cependant, deux lacunes majeures sont identifiées :

Sélection des informations : La plupart des études se concentrent uniquement sur les séquences d'observations, négligeant l'historique des actions. Or, les actions jouent un rôle causal dans les transitions d'état, et leur exclusion limite la capacité du réseau à reconstruire un état de croyance (belief state) robuste.
Efficacité computationnelle : Les algorithmes hors politique (off-policy) comme TD3 doivent souvent reprocesser les mêmes trajectoires par les réseaux d'acteur et de critique, ce qui est coûteux en temps de calcul, surtout avec des historiques longs.

2. Méthodologie

Les auteurs proposent une série d'améliorations architecturales et algorithmiques basées sur l'intégration d'actions dans les entrées des RNN et l'optimisation du partage d'états cachés.

A. Intégration des séquences d'actions et Causalité

L'étude postule que pour estimer correctement l'état interne $s^*_t$ dans un POMDP dynamique, le réseau doit traiter conjointement l'historique des observations ( $o_{t-l:t}$ ) et des actions ( $a_{t-l:t-1}$ ).

Justification théorique : Dans un système causal, l'action passée influence l'état futur et l'observation actuelle. Ignorer l'action empêche le modèle de distinguer les variations dues à l'environnement de celles dues à l'agent.
Expérimentation : Des tests sont réalisés sur l'environnement "Pendulum" avec cinq types de perturbations : biais temporel, onde sinusoïdale temporelle, onde sinusoïdale aléatoire, bruit gaussien, et état caché (vitesse angulaire masquée).

B. Nouvelles Architectures de Réseaux

Les auteurs comparent plusieurs architectures pour traiter les données séquentielles :

LSTM-TD3 (Référence) : Utilise deux canaux d'entrée (un pour l'historique, un pour l'état actuel) et traite les actions uniquement dans le canal d'historique.
LSTM-TD31ha1hc & 1ha2hc (Nouvelles propositions) :
- Ces architectures unifient l'entrée en traitant l'historique complet (observations + actions passées) comme une séquence unique dans un seul canal d'entrée.
- Cela respecte mieux les principes de construction de l'état de croyance (belief state) où le passé et le présent sont traités de manière cohérente par le LSTM.
- La variante 1ha2hc sépare l'action courante dans le critique, tandis que 1ha1hc l'intègre dans la séquence globale.

C. Algorithme H-TD3 (Hidden-state-based TD3)

C'est la contribution algorithmique majeure visant l'efficacité computationnelle :

Principe : Au lieu de faire passer la séquence complète à travers le réseau de critique (ce qui est redondant car l'acteur l'a déjà traitée), le réseau critique réutilise les états cachés ( $h_t$ ) et les états de cellule ( $c_t$ ) générés par le réseau d'acteur.
Mécanisme : Pendant l'entraînement, le réseau critique est initialisé avec les états LSTM stockés du comportement de l'acteur. Il reçoit ensuite uniquement l'observation et l'action courantes comme entrée, en les traitant comme la continuation immédiate de la séquence.
Avantage : Cela évite de re-calculer le LSTM pour le critique, réduisant drastiquement le temps de calcul par itération.

3. Contributions Clés

Validation de l'inclusion des actions : Démonstration que l'intégration des séquences d'actions améliore significativement la robustesse et la performance dans des environnements perturbés, en capturant les relations causales.
Architecture unifiée : Proposition d'architectures (LSTM-TD31ha1hc) qui traitent l'historique et l'observation actuelle comme une seule séquence, surpassant les architectures à double entrée traditionnelles.
Algorithme H-TD3 : Introduction d'une méthode novatrice réutilisant les états cachés de l'acteur pour le critique, offrant un gain d'efficacité computationnelle sans dégrader les performances (sauf dans des cas de bruit très spécifique).
Analyse de la longueur de l'historique : Identification que la longueur de la fenêtre temporelle ( $l$ ) doit être adaptée à la dynamique de la perturbation (plus longue pour les ondes sinusoïdales, moins critique pour les états cachés simples).

4. Résultats Expérimentaux

Les expériences ont été menées sur l'environnement "Pendulum" avec diverses perturbations :

Performance Globale : Tous les algorithmes basés sur LSTM surpassent le TD3 standard (sans mémoire) dans les scénarios POMDP.
Impact des Actions : Les algorithmes incluant les séquences d'actions obtiennent de meilleurs scores de récompense totale, particulièrement dans les scénarios d'ondes sinusoïdales (temporelles et aléatoires) et de bruit.
Robustesse : L'architecture LSTM-TD31ha1hc (séquence unifiée) a montré la meilleure robustesse et optimisation globale.
Efficacité (H-TD3) :
- H-TD3 réduit considérablement le temps d'itération par rapport aux autres méthodes basées sur LSTM, car il évite le traitement séquentiel redondant dans le critique.
- Cependant, H-TD3 présente une convergence légèrement plus lente et une dégradation de performance dans le scénario de "bruit" (noise), probablement dû à l'omission de l'action immédiate précédente ( $a_{t-1}$ ) dans l'initialisation du critique.
Généralisation : Les réseaux entraînés sur des perturbations dynamiques (ondes sinusoïdales) généralisent bien à d'autres perturbations dynamiques (biais, ondes combinées), mais échouent sur le bruit pur, confirmant que le modèle apprend la dynamique de la perturbation plutôt que de simplement la filtrer.

5. Signification et Conclusion

Ce travail démontre que pour déployer le RL dans le monde réel, il est crucial de :

Considérer les actions passées comme des informations causales essentielles pour la reconstruction de l'état, et non seulement les observations.
Adopter des architectures qui traitent l'histoire comme une séquence unifiée pour une estimation d'état plus cohérente.
Optimiser l'efficacité computationnelle via le partage d'états cachés (H-TD3), rendant le déploiement de RL complexe dans des systèmes temps réel plus viable.

L'article ouvre la voie vers des agents RL plus robustes capables de s'adapter dynamiquement à des environnements incertains et perturbés, tout en réduisant la charge de calcul nécessaire à l'entraînement.