Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Each language version is independently generated for its own context, not a direct translation.

🚀 Du "Cours Magistral" à la "Conduite en Direct" : Une nouvelle façon d'apprendre pour les robots

Imaginez que vous apprenez à conduire une voiture.

La méthode actuelle (Apprentissage par lots ou "Batch") :
C'est comme si vous passiez des années à étudier dans une bibliothèque théorique. Vous lisez des milliers de manuels, vous analysez des milliers de vidéos d'accidents, et vous faites des simulations sur ordinateur. Une fois que vous avez tout lu, vous allez sur la route pour conduire.

Le problème : Si la réalité est différente de la théorie (il pleut, la route est glissante, le moteur fait un bruit bizarre), vous êtes perdu. De plus, cette méthode demande un ordinateur très puissant pour lire tous ces livres avant même de bouger. Sur un petit robot (comme un drone ou un chien robot), il n'y a pas assez de batterie ou de puissance pour faire tout ce calcul avant de commencer.

La méthode proposée (Apprentissage "Streaming" ou en continu) :
C'est comme apprendre à conduire en direct, sans manuel, juste en tournant le volant et en regardant la route. Vous apprenez à chaque seconde, à chaque virage. C'est léger, rapide et parfait pour un petit robot qui doit s'adapter tout de suite.

Le problème : Jusqu'à présent, cette méthode était très difficile à maîtriser. Elle était instable (le robot pouvait faire des erreurs graves) et ne fonctionnait pas bien si on essayait de l'utiliser après avoir appris dans la bibliothèque (la simulation).

🛠️ La solution des auteurs : S2AC et SDAC

Les chercheurs de l'Université de Padoue (Riccardo, Matteo et Gian Antonio) ont inventé deux nouveaux algorithmes, qu'ils appellent S2AC et SDAC.

Voici comment ils fonctionnent, avec des analogies simples :

1. Le pont entre la théorie et la pratique (Le "Sim2Real")

Imaginez que vous entraînez un robot dans un simulateur vidéo ultra-réaliste (c'est la méthode "Batch"). Le robot est devenu un champion virtuel. Mais quand on le met sur un vrai robot, les capteurs sont différents, le sol est différent... le robot tombe.

L'innovation : Les auteurs disent : "Ne jetez pas ce champion virtuel !". Au lieu de recommencer à zéro, on prend ce robot qui a déjà appris dans le jeu, et on lui donne un coach en direct (l'algorithme "Streaming").
L'analogie : C'est comme un pilote de Formule 1 qui a fait des milliers de tours sur simulateur. Quand il monte dans la vraie voiture, il ne recommence pas à zéro. Il utilise son expérience de base, mais ajuste sa conduite en temps réel selon la pluie ou l'usure des pneus. S2AC et SDAC sont ces "coachs" qui permettent cette transition fluide.

2. La stabilité : Apprendre sans faire de bêtises

Apprendre en direct est risqué. Si le robot fait une erreur, il peut s'écraser. Les algorithmes classiques d'apprentissage en direct sont souvent trop "nerveux" et instables.

L'astuce : Les auteurs ont ajouté des "amortisseurs" intelligents.
- Pour les récompenses (les points) : Imaginez que vous jouez à un jeu vidéo. Parfois, vous gagnez 1000 points, parfois 1. Si vous ajustez votre stratégie en fonction de ces chiffres bruts, vous devenez fou. Les auteurs normalisent ces points en temps réel (comme ajuster le volume d'une musique pour qu'il ne soit ni trop fort ni trop faible).
- Pour la "peur" (l'entropie) : Dans l'apprentissage par renforcement, il faut un équilibre entre "être prudent" et "oser essayer de nouvelles choses". Les auteurs ont créé un bouton magique qui ajuste automatiquement cette audace en fonction de la difficulté du moment.

3. Le problème du "Changement d'entraîneur"

C'est le cœur de leur découverte la plus surprenante.

Le problème : Quand on passe d'un entraînement en bibliothèque (Batch) à un entraînement en direct (Streaming), c'est comme changer d'entraîneur de sport. L'ancien entraîneur (qui utilisait l'algorithme Adam) a formé le cerveau du robot d'une certaine manière. Le nouveau (qui utilise un algorithme différent appelé ObGD) ne comprend pas ce cerveau et le fait régresser.
La solution : Ils ont découvert qu'il faut changer l'entraîneur dès le début. Au lieu d'utiliser l'entraîneur classique pour la simulation, ils utilisent un entraîneur "hybride" (SGDC) qui ressemble déjà un peu à l'entraîneur en direct.
Le résultat : Quand le robot passe de la simulation à la réalité, il ne trébuche pas. Il glisse doucement vers une meilleure performance, comme un skieur qui passe de la piste préparée à la poudreuse sans tomber.

🌍 Pourquoi est-ce important ?

Pour les robots du futur : Imaginez des robots de sauvetage, des drones de livraison ou des prothèses intelligentes. Ils ne peuvent pas emporter un super-ordinateur avec eux. Ils doivent apprendre sur place, avec peu de batterie. Ces nouveaux algorithmes le rendent possible.
Pour l'industrie : On peut entraîner un robot dans une usine virtuelle (pas cher, sans risque), puis le déployer dans une vraie usine où il s'adaptera aux machines réelles sans avoir besoin d'être reprogrammé par un humain.
Pas de réglages compliqués : Les anciens algorithmes nécessitaient des réglages précis (comme régler un instrument de musique très fin). Ceux-ci sont "prêts à l'emploi" et fonctionnent bien partout.

En résumé

Ce papier dit essentiellement : "Arrêtons de séparer l'apprentissage théorique (sur ordinateur) et l'apprentissage pratique (sur le robot). Créons un système qui permet de passer de l'un à l'autre sans casser le robot."

C'est comme si on apprenait à un enfant à nager dans une piscine couverte, et qu'au moment de le mettre dans la mer, on lui donnait un gilet de sauvetage intelligent qui s'adapte automatiquement aux vagues, au lieu de le laisser tomber dans l'eau froide.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les méthodes d'apprentissage par renforcement profond (Deep RL) les plus avancées, telles que SAC (Soft Actor-Critic) et TD3 (Twin Delayed DDPG), excellent dans les tâches de contrôle continu. Cependant, leur efficacité repose sur des mécanismes coûteux en calcul :

L'utilisation de mémoires de rejeu (replay buffers) pour briser les corrélations temporelles.
Des mises à jour par lots (batch updates).
Des réseaux cibles (target networks) pour stabiliser l'apprentissage.

Ces exigences rendent ces algorithmes incompatibles avec les contraintes matérielles des systèmes embarqués (robots autonomes, edge computing) où la mémoire et la puissance de calcul sont limitées.

Bien que des approches "streaming" (flux continu, mises à jour en ligne pure) aient émergé (ex: Stream AC(λ)), elles présentent deux limites majeures pour les applications réelles :

Incompatibilité avec le Sim2Real : Elles ne sont pas conçues pour être utilisées comme phase de finetuning (ajustement fin) d'un agent pré-entraîné avec des méthodes par lot (SAC/TD3), ce qui est crucial pour combler l'écart entre la simulation et la réalité.
Sensibilité aux hyperparamètres : Certaines méthodes existantes nécessitent un réglage minutieux et spécifique à chaque environnement.

L'objectif de cet article est de proposer des algorithmes de Deep RL en flux (streaming) qui soient compatibles avec les méthodes par lot de l'état de l'art, permettant ainsi un transfert fluide (Sim2Real) et un apprentissage continu sur des ressources limitées.

2. Méthodologie Proposée

Les auteurs proposent deux nouveaux algorithmes : S2AC (Streaming Soft Actor-Critic) et SDAC (Streaming Deterministic Actor-Critic). Ces algorithmes sont des adaptations en flux pur de SAC et TD3.

A. Architecture et Stabilisation Commune

Pour pallier l'instabilité inhérente aux mises à jour en ligne (bruit élevé, non-stationnarité des données), les deux algorithmes intègrent :

Initialisation Sparse : Une initialisation des poids du réseau pour éviter les problèmes de saturation initiale.
Normalisation des entrées : Utilisation de la normalisation des observations et de l'échelle des récompenses (suivant Engstrom et al., 2020) via des statistiques en ligne (algorithme de Welford).
LayerNorm : Application de la normalisation par couches sur les pré-activations.
Optimiseur ObGD : Utilisation de l'optimiseur Overshooting-bounded Gradient Descent (ObGD) pour le réseau critique (Critic), conçu pour éviter les dépassements (overshooting) sans coût computationnel supplémentaire, remplaçant ainsi les méthodes basées sur le clipping ou l'Adam pour cette partie.

B. Streaming Soft Actor-Critic (S2AC)

Principe : Adaptation de SAC en flux. Il maximise l'entropie tout en apprenant une fonction de valeur douce (soft Q-function).
Innovation Clé (Coefficient d'Entropie Adaptatif) : Les auteurs identifient que la normalisation des récompenses ( $\sigma_r$ ) perturbe l'équilibre entre la récompense et l'entropie si le coefficient $\alpha$ est fixe. Ils proposent de mettre à jour dynamiquement $\alpha$ en fonction de l'échelle des récompenses : $\alpha \to \alpha / \sigma_r$ . Cela maintient le ratio relatif constant tout au long de l'entraînement.
Mise à jour : Le critique utilise des traces d'éligibilité avec ObGD, tandis que l'acteur (policy) est mis à jour avec Adam (sans traces d'éligibilité).

C. Streaming Deterministic Actor-Critic (SDAC)

Principe : Adaptation de TD3 en flux avec une politique déterministe. C'est le premier algorithme de ce type dans le cadre du Deep RL en flux.
Exploration : Ajout de bruit gaussien à l'action ( $\epsilon_1$ ).
Stabilisation du Cible (Target Noise) : Inspiré de TD3, le bruit est ajouté à la cible de la fonction de valeur ( $\epsilon_2$ ) pour lisser la fonction Q et éviter le surapprentissage sur des pics étroits. Cette composante s'avère critique pour la stabilité de SDAC.
Mise à jour : Similaire à S2AC, avec un critique optimisé par ObGD et traces, et un acteur par Adam.

3. Contributions Principales

Algorithmes S2AC et SDAC : Deux nouveaux algorithmes de Deep RL en flux qui atteignent des performances comparables à l'état de l'art (Stream AC(λ)) sur des benchmarks standards (MuJoCo, DM Control Suite) sans nécessiter de réglage fin des hyperparamètres par environnement.
Première Investigation du Passage Lot $\to$ Flux : Les auteurs sont les premiers à étudier les défis pratiques du passage d'un entraînement par lot (batch) à un apprentissage en flux (streaming) pour le finetuning.
Stratégie de Compatibilité (Sim2Real) : Ils identifient que le changement d'optimiseur (Adam $\to$ $\to$ ObGD) et la croissance des normes des poids lors de l'entraînement par lot avec Adam empêchent un transfert fluide.
- Solution proposée : Remplacer Adam par SGDC (SGD with Clipping) lors de la phase de pré-entraînement par lot. SGDC produit des normes de poids plus faibles, préservant la "plasticité" du réseau et permettant une adaptation efficace lors du basculement vers SDAC/S2AC.
Amélioration des Algorithmes par Lot : Ils montrent que l'ajout de la normalisation des données et de l'échelle des récompenses (techniques issues du streaming) améliore également les performances des algorithmes batch classiques (SAC et TD3).

4. Résultats Expérimentaux

Les expériences ont été menées sur des environnements MuJoCo et DM Control Suite avec 10 graines aléatoires.

Performance de zéro (From Scratch) :
- S2AC et SDAC atteignent des performances compétitives par rapport à Stream AC(λ).
- Contrairement à d'autres méthodes (comme AVG), ils ne nécessitent pas de réglage spécifique de l'optimiseur ou de la température d'entropie par environnement.
- L'étude d'ablation confirme que l'ajustement adaptatif de $\alpha$ (S2AC) et le bruit cible (SDAC) sont essentiels pour la stabilité.
Impact de la Normalisation sur les Méthodes Batch :
- L'ajout de la normalisation des états et de l'échelle des récompenses à SAC et TD3 (SAC-norm, TD3-norm) améliore significativement leurs performances, en particulier pour TD3, même avec des architectures de réseaux plus petites (128 unités vs 512).
Scénario de Finetuning (Batch $\to$ Streaming) :
- Problème : Un passage direct d'un modèle pré-entraîné avec TD3 (Adam) à SDAC (ObGD) entraîne une chute drastique des performances.
- Résolution : En pré-entraînant avec TD3 utilisant SGDC (au lieu d'Adam) pour le critique, la transition vers SDAC devient fluide. L'agent conserve ses performances et continue de s'améliorer, surpassant parfois l'entraînement de zéro avec moins d'échantillons.
- Limites : Bien que prometteur, le finetuning sur des tâches complexes (ex: quadruped-run) montre encore des baisses de performance non négligeables, identifiant cela comme un défi ouvert.

5. Signification et Impact

Ce travail est une étape fondamentale vers le déploiement réel de l'apprentissage par renforcement sur des robots autonomes.

Faisabilité du Sim2Real : Il offre une voie pratique pour entraîner des agents en simulation (avec des méthodes batch puissantes) et les adapter en temps réel sur du matériel réel (avec des méthodes streaming), comblant ainsi le fossé de la distribution.
Adaptabilité aux Contraintes : Il permet l'alternance dynamique entre des modes d'apprentissage "batch" (quand les ressources le permettent) et "streaming" (en cas de pénurie de ressources), rendant les systèmes robotiques plus robustes face aux variations de charge computationnelle.
Unification des Paradigmes : L'article suggère que les algorithmes batch et streaming ne doivent pas être considérés comme des paradigmes distincts, mais plutôt comme des variantes d'une même fondation algorithmique, partageant des techniques de stabilisation (normalisation, optimiseurs adaptés).

En conclusion, S2AC et SDAC ouvrent la voie à une apprentissage par renforcement continu et adaptatif directement sur les dispositifs embarqués, résolvant des problèmes de stabilité et de compatibilité qui avaient jusqu'alors freiné l'adoption du Deep RL dans le monde réel.