Reference Grounded Skill Discovery

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot humanoïde très complexe (avec des centaines de joints qui bougent) comment se déplacer et agir. Le défi, c'est que si vous lui dites simplement "va explorer", il risque de se mettre à trembler de façon aléatoire, comme un robot ivre, au lieu de marcher ou de courir. C'est ce qu'on appelle le "fléau de la dimensionnalité" : plus le robot est complexe, plus l'espace des possibilités est immense, et plus il est difficile de trouver les mouvements qui ont du sens.

Voici comment les auteurs de cette recherche, RGSD, ont résolu ce problème avec une approche ingénieuse que nous pouvons comparer à l'apprentissage d'une langue ou à la cuisine.

1. Le Problème : L'Exploration Aveugle

Imaginez que vous demandez à un élève de dessiner tous les animaux possibles sans lui montrer de livres. Il pourrait dessiner un chat avec des ailes de poulet et une queue de poisson. C'est "diversifié", mais ce n'est pas utile.
De même, les robots apprennent souvent des mouvements bizarres et inutiles parce qu'ils n'ont pas de point de repère. Ils explorent l'espace sans savoir ce qui est "bien" ou "mal".

2. La Solution : Le "Guide de Cuisine" (Les Données de Référence)

Au lieu de laisser le robot explorer au hasard, les chercheurs lui donnent un livre de recettes (des données de référence). Ils lui montrent des vidéos de gens qui marchent, courent, frappent un coup de poing ou font un pas de côté.

Mais ils ne se contentent pas de lui dire "copie ça". Ils font quelque chose de plus subtil :

L'Encodage (La Carte des Saveurs) : D'abord, ils utilisent une technique appelée "apprentissage contrastif" pour analyser ces vidéos. Ils transforment chaque mouvement (marcher, courir) en une direction précise dans un espace imaginaire (une sphère).
- Analogie : Imaginez une boussole magique. La direction "Nord" représente la marche, "Sud" la course, "Est" le coup de poing. Chaque mouvement a sa propre boussole.

3. L'Apprentissage : Imitation et Découverte

Une fois cette carte mentale créée, le robot apprend en deux temps, comme un chef cuisinier qui apprend d'abord à copier un grand chef, puis à innover.

Étape 1 : L'Imitation (Copier le Chef)
Le robot reçoit la direction "Nord" (marche) et doit essayer de reproduire exactement ce mouvement. Grâce à la carte, il sait que s'il s'éloigne de la direction "Nord", il perd des points. Il apprend donc à suivre la trajectoire parfaite.
Étape 2 : La Découverte (Innover)
C'est là que la magie opère. Le robot n'est pas obligé de rester exactement sur la ligne "Nord". Il peut s'écarter un peu, vers le Nord-Est.
- Analogie : Si "Nord" c'est "marcher droit", alors "Nord-Est" pourrait être "marcher en tournant légèrement" ou "marcher plus vite".
  Le robot découvre ainsi de nouvelles compétences qui sont logiquement liées aux anciennes. Il ne crée pas un monstre à trois pattes, mais une variation intelligente d'un mouvement qu'il connaît déjà.

4. Pourquoi c'est génial ?

Les méthodes précédentes (comme METRA) essayaient de trouver des différences maximales entre les mouvements, ce qui conduisait souvent à des résultats chaotiques sur des robots complexes. RGSD, lui, utilise la sémantique (le sens).

Résultat : Le robot apprend non seulement à marcher, courir et frapper, mais il découvre aussi comment marcher en reculant, comment faire un pas de côté, ou comment frapper vers la gauche ou la droite.
Contrôle : Si vous voulez que le robot soit très précis, vous lui donnez la direction exacte. Si vous voulez de la diversité, vous lui donnez une direction un peu floue autour de cette cible, et il inventera des variations amusantes mais cohérentes.

En Résumé

Imaginez que vous apprenez à un enfant à jouer du piano.

L'ancienne méthode : "Joue n'importe quelle note, mais essaie d'être différent de la fois précédente." -> Résultat : Du bruit.
La méthode RGSD : On lui montre d'abord une gamme (la référence). On lui dit : "Voici où se trouve la note Do. Maintenant, joue quelque chose qui ressemble au Do, mais qui est un peu différent." -> Résultat : L'enfant apprend à jouer de belles variations d'une mélodie connue.

Cette méthode permet de passer d'un robot qui se tord de façon aléatoire à un robot qui maîtrise un vocabulaire riche de mouvements naturels, prêts à être utilisés pour des tâches complexes comme atteindre une cible tout en gardant un style de marche spécifique. C'est une avancée majeure pour rendre les robots plus intelligents et plus naturels.

Each language version is independently generated for its own context, not a direct translation.

Titre : Reference-Grounded Skill Discovery (RGSD)

Auteurs : Seungeun Rho, Aaron Trinh, Danfei Xu, Sehoon Ha (Georgia Institute of Technology)

1. Problématique

Le défi central abordé par cet article est l'extension des algorithmes de découverte de compétences (skill discovery) non supervisés aux agents à haut degré de liberté (High-DoF), tels que les humanoïdes complexes.

Le paradoxe de la dimensionnalité : À mesure que le nombre de degrés de liberté augmente, l'espace d'exploration croît de manière exponentielle, tandis que la variété des comportements sémantiquement significatifs reste limitée.
Échec des méthodes existantes : Les approches de pointe actuelles, comme METRA (basée sur la maximisation de la distance dans l'espace latent), échouent souvent à produire des comportements structurés dans des espaces de haute dimension. Au lieu d'apprendre des compétences cohérentes (ex: marcher, courir), les agents génèrent des mouvements désordonnés où les membres bougent de manière arbitraire et indépendante, car l'espace d'exploration n'est pas contraint par une sémantique préalable.
Besoins : Il est nécessaire de guider l'exploration vers un sous-ensemble de l'espace d'état qui soit à la fois diversifié et sémantiquement interprétable.

2. Méthodologie : RGSD

L'idée clé de RGSD est d'inverser l'ordre conventionnel de la découverte de compétences : au lieu d'explorer d'abord pour ensuite structurer l'espace latent, RGSD structure d'abord l'espace latent à l'aide de données de référence avant d'entamer l'exploration.

L'algorithme se déroule en deux phases principales :

A. Pré-entraînement : Ancrage de l'espace latent (Grounding)

Objectif : Créer un espace latent sémantique où chaque mouvement de référence correspond à une direction unique.
Mécanisme : Utilisation d'un apprentissage contrastif sur un ensemble de trajectoires de référence (sans interaction avec l'environnement).
Modélisation : Un encodeur $q_\phi(z|s)$ est entraîné pour mapper les états $s$ sur une hypersphère unité en utilisant une distribution von Mises-Fisher (vMF).
Fonction de perte : Minimisation de la perte InfoNCE. Les paires positives proviennent de la même trajectoire (encourageant l'alignement des états d'un même mouvement vers une même direction), et les paires négatives proviennent de trajectoires différentes (encourageant la séparation entre les mouvements).
Résultat : À la fin du pré-entraînement, tous les états d'un mouvement donné convergent vers un vecteur latent unique, créant un "manifold" sémantique structuré.

B. Découverte et Imitation Parallèles

Une fois l'espace latent ancré, RGSD entraîne une politique $\pi_\theta$ en parallèle pour deux objectifs :

Imitation : La politique est conditionnée par les vecteurs latents des mouvements de référence ( $z_m$ ). La récompense est dérivée de l'objectif DIAYN (maximisation de l'information mutuelle), ce qui se traduit par une similarité cosinus entre l'état actuel et le mouvement de référence. Cela permet d'imiter fidèlement les données de référence.
Découverte de nouvelles compétences : La politique explore l'espace latent en échantillonnant des vecteurs $z$ $z$ situés entre les directions des références (interpolation) ou autour d'elles.
- Initialisation par état de référence (RSI) : Pour éviter la divergence, les épisodes commencent à partir d'états issus des mouvements de référence.
- Partage de connaissances : La politique et la fonction de valeur sont partagées entre les phases d'imitation et de découverte, permettant au modèle de transférer la fidélité des mouvements imités vers les nouvelles compétences découvertes.

3. Contributions Clés

Algorithme scalable : Proposition d'un algorithme capable de découvrir des compétences structurées sur des agents à très haut DoF (69 DoF pour un humanoïde SMPL) en ancrant l'espace latent avec des données de référence.
Preuve théorique : Démonstration que la récompense proposée agit comme un signal d'imitation valide, satisfaisant des conditions d'optimalité et de quasi-concavité locale autour des états de référence.
Analyse comparative des méthodes : Explication théorique et empirique de pourquoi les méthodes basées sur l'information mutuelle (DIAYN) fonctionnent bien avec RGSD, tandis que les méthodes basées sur la dépendance de Wasserstein (comme METRA) échouent à capturer les mouvements répétitifs (ex: marche) dans un cadre local sans introduire de biais dimensionnels.
Performances supérieures : RGSD surpasse les méthodes d'apprentissage par imitation (ASE, CALM, Meta-Motivo) et les méthodes de découverte non supervisée pures sur des tâches de locomotion complexes.

4. Résultats Expérimentaux

Les expériences ont été menées sur un agent humanoïde SMPL simulé (359 dimensions d'observation, 69 dimensions d'action) avec des mouvements de référence issus du dataset ACCAD (marche, course, pas de côté, marche arrière, coups de poing).

Fidélité d'imitation : RGSD atteint une faible erreur cartésienne et des scores FID (Fréchet Inception Distance) compétitifs, surpassant les méthodes purement non supervisées (DIAYN, METRA) qui échouent à reproduire des mouvements sémantiques.
Découverte de variations : RGSD réussit à découvrir de nouvelles compétences sémantiquement liées aux références. Par exemple, à partir d'un seul mouvement de "pas de côté vers la droite", le modèle découvre des pas de côté vers la gauche ou avec des angles de rotation variés, tout en conservant le style du mouvement.
Contrôle de la diversité : Il est possible de moduler la diversité des comportements générés en ajustant le paramètre de concentration $\kappa$ de la distribution vMF lors de l'échantillonnage latent. Un $\kappa$ élevé produit une imitation stricte, tandis qu'un $\kappa$ faible génère des variations plus diversifiées.
Tâches en aval (Downstream Tasks) : Dans une tâche de "Goal Reaching" (atteindre un objectif) avec des commandes de style (ex: "marche arrière" ou "pas de côté"), RGSD est le seul modèle à réussir à atteindre l'objectif tout en respectant strictement le style commandé. Les méthodes d'imitation basées sur GAIL (comme CALM) tendent à ignorer le style ou à échouer à naviguer vers des objectifs complexes sans perdre le style.

5. Signification et Impact

Changement de paradigme : RGSD introduit une approche hybride efficace combinant l'apprentissage par imitation et la découverte de compétences, inspirée par les régimes d'entraînement des grands modèles de langage (pré-entraînement auto-supervisé suivi de fine-tuning).
Fondation pour le contrôle : Cette méthode ouvre la voie à la création de "modèles de fondation de compétences" (skill foundation models) pour la robotique humanoïde, capables de généraliser des comportements complexes à partir de données de référence limitées.
Limitations et perspectives : L'article souligne que les méthodes basées sur la distance (WDM/METRA) sont intrinsèquement difficiles à étendre à ce cadre pour les mouvements répétitifs. Les travaux futurs visent à explorer des comportements compositionnels (ex: marcher tout en frappant) et à généraliser à différents types de corps (embodiments).

En résumé, RGSD résout le problème de la "malédiction de la dimensionnalité" dans la découverte de compétences en imposant une structure sémantique préalable via des données de référence, permettant ainsi aux agents complexes d'apprendre des comportements à la fois diversifiés, structurés et contrôlables.