ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Each language version is independently generated for its own context, not a direct translation.

🤖 ProgAgent : Le Robot qui Apprend sans Oublier (et sans se faire avoir)

Imaginez que vous apprenez à jouer au piano. Vous commencez par La Lettre à Élise. Ensuite, vous apprenez Le Clair de Lune. Le problème classique des robots (et même de certains humains) avec l'intelligence artificielle actuelle, c'est ce qu'on appelle l'oubli catastrophique : dès qu'ils apprennent Le Clair de Lune, ils oublient totalement comment jouer La Lettre à Élise. C'est comme si leur cerveau était une ardoise magique qui s'efface à chaque nouvelle leçon.

De plus, apprendre seul est très difficile. Pour apprendre, un robot a besoin de savoir exactement ce qu'il fait de bien ou de mal. Mais demander à un humain de noter chaque mouvement d'un robot (comme un professeur de piano qui crie "Bravo !" ou "Non !") à chaque seconde, c'est épuisant et impossible à grande échelle.

ProgAgent est une nouvelle invention qui résout ces deux problèmes en même temps. Voici comment, avec des analogies simples :

1. Le "GPS de la Progression" (Au lieu de la récompense manuelle)

Au lieu de demander à un humain de dire "C'est bien !" ou "C'est mal", ProgAgent regarde simplement des vidéos d'experts (des humains qui font le travail parfaitement).

L'analogie : Imaginez que vous apprenez à cuisiner en regardant un chef cuisinier. Vous ne savez pas exactement pourquoi il met le sel, mais vous voyez l'évolution : le plat passe de "cru" à "cuit" à "délicieux".
La magie de ProgAgent : Il ne regarde pas les actions (les mains du chef), mais il regarde l'état du plat. Il calcule automatiquement : "Ah, le plat est à 30% de fini", puis "50%", puis "90%".
Le résultat : Le robot reçoit un signal constant (une récompense dense) qui lui dit : "Tu avances bien, continue !" ou "Tu recules, attention !". Il n'a pas besoin d'un professeur qui crie à chaque seconde, il a juste besoin de voir la vidéo du résultat final.

2. Le "Bouclier Anti-Confiance" (Pour ne pas se perdre)

Quand un robot explore de nouvelles choses, il peut se retrouver dans des situations bizarres que le robot n'a jamais vues dans les vidéos d'entraînement. Un modèle naïf pourrait dire : "Oh, c'est bizarre, mais ça ressemble à quelque chose, je vais dire que c'est une bonne idée !" et se tromper gravement.

L'analogie : C'est comme un touriste qui arrive dans un pays étranger. S'il voit un panneau qu'il ne comprend pas, un touriste confiant pourrait dire "C'est sûrement un restaurant !" et entrer, alors que c'est une prison.
La solution de ProgAgent : Il a un mécanisme appelé "poussée adverse" (adversarial push-back). Si le robot voit quelque chose de trop étrange ou inconnu, ce mécanisme lui dit : "Attends, je ne suis pas sûr de ce que c'est. Ne sois pas trop confiant, reste prudent." Cela empêche le robot de se faire des illusions sur des situations dangereuses ou inutiles.

3. Le "Super-Cerveau" (L'architecture JAX)

Pour apprendre tout ça très vite, il faut une puissance de calcul énorme. Les anciens systèmes étaient comme des voitures de sport avec un moteur puissant mais des roues en bois : ils ne pouvaient pas rouler vite.

L'analogie : ProgAgent utilise une technologie appelée JAX qui est comme un moteur de course ultra-performant. Au lieu de faire les choses une par une (comme un seul robot qui apprend), ProgAgent lance des milliers de simulations en parallèle en même temps.
Le résultat : Il apprend des mois de pratique en quelques heures. C'est ce qui lui permet de combiner l'apprentissage de nouvelles tâches avec le souvenir des anciennes sans ralentir.

4. Le "Cerveau Élastique" (Apprentissage Continu)

Enfin, pour ne pas oublier les anciennes tâches, ProgAgent utilise deux techniques combinées :

La Répétition (Replay) : Il garde un petit échantillon de ses anciennes expériences (comme un album photo) et les regarde de temps en temps.
La Protection des Clés (Synaptic Intelligence) : Il sait quelles parties de son cerveau sont vitales pour les anciennes tâches et les protège comme des trésors, tout en laissant le reste du cerveau se modifier pour apprendre le nouveau.

🏆 Pourquoi est-ce si important ?

Les tests montrent que ProgAgent est meilleur que tout le monde :

Il oublie beaucoup moins que les autres robots.
Il apprend plus vite car il reçoit des conseils précis (grâce aux vidéos d'experts).
Il est même capable de surpasser un robot théorique qui aurait une "mémoire parfaite" (qui se souvient de tout), simplement parce que son système d'apprentissage est si efficace.

En résumé : ProgAgent est un robot qui apprend comme un humain talentueux : il observe les experts pour comprendre le but, il reste prudent face à l'inconnu, et il utilise une puissance de calcul massive pour s'entraîner des milliers de fois en même temps, tout en gardant précieusement en mémoire tout ce qu'il a déjà appris. C'est un grand pas vers des robots qui peuvent vraiment vivre et travailler avec nous dans le monde réel, en apprenant de nouvelles compétences chaque jour sans perdre les anciennes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage continu (Continual Reinforcement Learning - CRL) en robotique vise à permettre aux agents d'acquérir de nouvelles compétences tout en conservant et en affinant les connaissances passées. Cependant, ce domaine fait face à deux obstacles majeurs :

L'oubli catastrophique : L'adaptation à de nouvelles tâches tend à écraser les capacités acquises précédemment, compromettant l'autonomie à long terme.
Le problème de spécification des récompenses : Concevoir manuellement des fonctions de récompense denses et bien structurées pour des tâches de manipulation variées est laborieux et souvent impraticable. De plus, les modèles de récompense basés sur la perception (à partir de vidéos non étiquetées) sont souvent fragiles face aux changements de distribution (distribution shift) lors de l'exploration en ligne, générant des récompenses erronées pour des états non experts.

Il existe un fossé entre les algorithmes d'apprentissage continu (qui se concentrent sur la stabilité) et les systèmes d'apprentissage par renforcement (RL) haute performance (qui optimisent l'efficacité computationnelle), empêchant la création d'agents unifiés et évolutifs.

2. Méthodologie : ProgAgent

ProgAgent est un agent d'apprentissage par renforcement continu qui unifie l'estimation de récompense basée sur le progrès avec une architecture native JAX (Just-In-Time compilation).

A. Modèle de Récompense Basé sur le Progrès (Progress-Aware Reward)

Au lieu d'utiliser des étiquettes d'actions, ProgAgent apprend une fonction de potentiel à partir de vidéos d'experts non étiquetées.

Estimation du progrès : Un modèle perceptuel $E_\phi$ prédit le ratio de progression $\delta$ entre une observation initiale, une observation courante et un état objectif. La perte est minimisée via une divergence KL par rapport à une cible gaussienne.
Fonction de potentiel : La prédiction moyenne est interprétée comme une fonction de potentiel d'état $\Phi_\phi(o_t)$ . La récompense dense est alors calculée comme la différence de potentiel : $r_t = \gamma \Phi_\phi(o_t) - \Phi_\phi(o_{t-1})$ . Cela garantit théoriquement l'invariance de la politique optimale tout en fournissant un signal dense pour guider l'exploration.

B. Raffinement Adversaire (Adversarial Push-Back)

Pour contrer l'instabilité lors de l'exploration en ligne (où l'agent rencontre des états hors distribution), un mécanisme de régularisation est introduit :

Une perte de poussée adverse ( $L_{push}$ ) pénalise les prédictions de récompense sur les trajectoires non experts en les rapprochant d'une distribution a priori à faible confiance (moyenne nulle, variance élevée).
Cela empêche le modèle de devenir trop confiant sur des états inconnus, évitant ainsi les récompenses trompeuses qui pourraient dévier l'apprentissage.

C. Architecture Native JAX et Haute Performance

ProgAgent intègre ces mécanismes dans une boucle d'entraînement entièrement compilée via JAX :

Parallélisation massive : Utilisation de jax.vmap pour exécuter des milliers de simulations en parallèle sur GPU.
Boucle unifiée : La collecte de données, la mise à jour du modèle de récompense et l'optimisation de la politique sont encapsulées dans une seule fonction compilée, éliminant les goulots d'étranglement CPU-GPU.
Objectif Unifié : La politique est optimisée via une combinaison de PPO (Proximal Policy Optimization), de replay de Coreset (mémoire sélective) et de régularisation Synaptic Intelligence (SI) pour équilibrer stabilité et plasticité.

3. Contributions Clés

Modèle de récompense basé sur le potentiel : Extraction de signaux denses à partir de vidéos d'experts sans étiquettes d'actions, théoriquement justifié comme une fonction de potentiel assurant une convergence vers les trajectoires expertes.
Mécanisme de raffinement adversaire : Stabilisation du modèle de récompense face aux changements de distribution en régularisant les prédictions sur les trajectoires non experts, rendant l'agent robuste pour l'adaptation continue en ligne.
Architecture unifiée JAX-Native : Conception d'un pipeline de bout en bout compilé qui permet une parallélisation massive et intègre efficacement des techniques avancées d'apprentissage continu, comblant le fossé entre innovation algorithmique et déploiement système.

4. Résultats Expérimentaux

Les évaluations ont été menées sur les benchmarks ContinualBench et Meta-World, ainsi que sur des robots physiques.

Performance sur ContinualBench : ProgAgent surpasse systématiquement les méthodes de base (y compris Rank2Reward, TCN, SI, Coreset et même un agent à "Mémoire Parfaite" idéal).
- Il obtient le meilleur taux de réussite (ex: 98,8 % pour button-press) et le regret le plus faible.
- Il réduit considérablement l'oubli catastrophique tout en accélérant l'apprentissage.
Efficacité Échantillonnaire : Grâce aux récompenses denses et structurées, l'agent apprend plus rapidement que les méthodes utilisant des signaux de récompense moins structurés.
Validation Physique : Des essais sur un robot réel ont confirmé la capacité de l'agent à apprendre des compétences de manipulation complexes à partir de quelques démonstrations humaines bruyantes, même avec 50 % de données d'échec.
Étude d'Abalation : La suppression du raffinement adversaire ou des régularisations d'apprentissage continu entraîne une chute drastique des performances, prouvant que la synergie entre le modèle de récompense robuste et les mécanismes de mémoire est indispensable.

5. Signification et Impact

ProgAgent représente une avancée majeure pour l'apprentissage robotique à vie (lifelong learning) en démontrant que :

La qualité du signal de récompense (dérivé de la perception et stabilisé par l'adversaire) est aussi cruciale que les mécanismes de rétention de mémoire pour éviter l'oubli.
L'efficacité computationnelle (via JAX) n'est pas seulement une question de vitesse, mais un prérequis pour permettre l'optimisation d'objectifs unifiés complexes à grande échelle.
Il est possible de surpasser des agents idéaux disposant d'une mémoire parfaite grâce à une meilleure efficacité d'échantillonnage et une architecture logicielle optimisée.

En résumé, ProgAgent offre un cadre robuste et évolutif pour déployer des agents robotiques capables d'apprendre continuellement dans des environnements dynamiques et non structurés, sans nécessiter de spécification manuelle fastidieuse des récompenses.