Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment cuisiner un repas complet, comme préparer un sandwich ou ranger une cuisine. C'est un défi énorme ! Le robot doit non seulement savoir comment saisir une pomme, mais aussi quand le faire, dans quel ordre, et comment réagir si la pomme roule sur la table.

Voici comment le papier SymSkill résout ce problème, expliqué simplement avec des analogies du quotidien.

Le Problème : Deux Approches qui échouent

Actuellement, il existe deux façons principales d'entraîner les robots, mais elles ont toutes les deux un gros défaut :

L'Imitation par l'Observation (Le "Copieur") :
- L'analogie : C'est comme un élève qui regarde un professeur faire un exercice et essaie de le refaire mot pour mot.
- Le problème : Si le professeur change de position ou si l'objet bouge, l'élève panique. Il ne comprend pas la logique derrière le mouvement, il a juste mémorisé une séquence rigide. Il ne sait pas s'adapter.
La Planification Classique (Le "Mathématicien") :
- L'analogie : C'est comme un architecte qui dessine un plan de maison très détaillé avant de poser la première brique.
- Le problème : C'est trop lent ! Si un objet tombe pendant la construction, l'architecte doit tout arrêter, recalculer tout le plan pendant des heures, et repartir. Dans un monde réel où tout bouge, c'est impossible.

La Solution : SymSkill (Le "Chef de Cuisine Intuitif")

SymSkill est une nouvelle méthode qui combine le meilleur des deux mondes. Elle apprend au robot à la fois les gestes (les compétences) et les règles (la logique), tout en étant capable de réagir en temps réel.

Voici comment ça marche, étape par étape :

1. L'Apprentissage par le "Jeu" (Sans étiquettes)

Habituellement, pour entraîner un robot, il faut des milliers d'heures de données étiquetées par des humains (ex: "ici, on ouvre la porte", "ici, on attrape la poignée").

L'astuce de SymSkill : Le robot regarde simplement quelqu'un jouer ou faire des tâches pendant 5 minutes. Il n'a pas besoin d'étiquettes.
L'analogie : Imaginez un enfant qui regarde sa mère faire la vaisselle. Il ne reçoit pas de manuel d'instructions. Il observe : "Ah, quand elle prend l'assiette, elle la met dans l'évier." SymSkill fait pareil, mais en utilisant des mathématiques pour repérer les moments clés.

2. Découper l'Action en "Briques" (Prédicats et Compétences)

Le robot apprend à diviser une tâche complexe en petites briques logiques :

Les "Prédicats" (Les Signaux) : Ce sont des états simples. Par exemple : "La porte est-elle ouverte ?" ou "Le robot tient-il l'objet ?".
- Comment il les apprend : Il utilise une IA visuelle (un "œil" très intelligent) pour repérer quel objet est important (ex: la poignée de la porte) et quel objet sert de référence (ex: le cadre de la porte). Il apprend alors : "Quand le robot est ici par rapport à la poignée, c'est le moment de saisir."
Les "Compétences" (Les Mouvements) : Ce sont les gestes physiques.
- Comment il les apprend : Il utilise des systèmes dynamiques (des sortes de champs magnétiques invisibles). Imaginez que le robot a une boussole qui le guide toujours vers la cible, même si on le pousse un peu. Si vous poussez le robot, il ne s'arrête pas ; il contourne l'obstacle et continue vers le but.

3. La Magie : Co-Invention (Créer ensemble)

Le plus génial, c'est que le robot invente ses propres règles et ses propres gestes en même temps.

Il ne se contente pas de copier. Il dit : "Tiens, chaque fois que je veux mettre l'assiette dans l'évier, je dois d'abord ouvrir le tiroir."
Il crée un opérateur : "Ouvrir le tiroir" devient une compétence réutilisable. Plus tard, pour ranger une tasse, il réutilisera la même compétence "Ouvrir le tiroir" sans avoir besoin de réapprendre.

4. L'Exécution en Temps Réel (Le Planificateur)

Quand le robot doit faire une tâche complexe (ex: "Ranger le fromage"), il utilise un planificateur symbolique.

L'analogie : C'est comme un GPS. Vous lui dites "Je veux aller à la plage". Le GPS calcule le chemin (Ouvrir la porte -> Prendre la voiture -> Rouler).
La différence : Si un camion bloque la route (échec), le GPS ne vous dit pas "Échec, arrêtez tout". Il recalcule instantanément un nouveau chemin. SymSkill fait pareil : si le robot lâche l'objet, il ne panique pas, il reprend le plan, réajuste sa prise et continue.

Pourquoi c'est impressionnant ?

Efficacité des données : Il apprend avec très peu d'exemples (5 minutes de vidéo), là où d'autres méthodes en demandent des milliers.
Robustesse : Si vous poussez le robot ou si un objet bouge, il s'adapte immédiatement grâce à ses "compétences dynamiques".
Généralisation : Une fois qu'il a appris à ouvrir un tiroir, il peut l'appliquer à n'importe quel tiroir, même s'il n'en a jamais vu un exactement pareil.

En Résumé

SymSkill, c'est comme donner à un robot un cerveau capable de comprendre la logique d'une tâche (comme un humain) tout en ayant des réflexes musculaires ultra-stables (comme un athlète), le tout appris en regardant simplement quelqu'un faire la vaisselle pendant 5 minutes. C'est une étape majeure pour rendre les robots capables de vivre et d'aider dans nos maisons réelles, sans avoir besoin d'être programmés pour chaque petit détail.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La manipulation robotique à long horizon dans des environnements dynamiques reste un défi majeur. Deux approches existantes présentent des limitations importantes :

L'apprentissage par imitation (IL) : Bien que réactif, il apprend souvent des politiques monolithiques qui ne généralisent pas bien aux changements de scène et ne permettent pas de réutiliser des compétences de manière compositionnelle.
La planification tâche-et-mouvement (TAMP) classique : Elle offre une compositionnalité symbolique, mais son temps de planification élevé (de dizaines à centaines de secondes) rend impossible la récupération en temps réel face aux échecs ou aux environnements dynamiques. De plus, les symboles et les compétences sont souvent conçus à la main, ce qui est laborieux.

L'objectif est de créer un cadre unifié capable d'apprendre à la fois des abstractions symboliques (prédicats, opérateurs) et des compétences motrices à partir de démonstrations non étiquetées et non segmentées, avec une efficacité de données élevée et une capacité de récupération en temps réel.

2. Méthodologie : Le Framework SymSkill

SymSkill propose un cadre d'invention conjointe de symboles et de compétences (Symbol and Skill Co-Invention). Il fonctionne en deux phases : une phase hors ligne (apprentissage) et une phase en ligne (exécution).

A. Segmentation et Sélection du Repère de Référence (Hors ligne)

Les démonstrations brutes sont segmentées automatiquement en deux types de segments basés sur la cinématique :

Segment "Pre-motion" : Le mouvement de l'effecteur terminal (gripper) vers un objet avant le contact. L'objet cible ( $o_{int}$ ) sert de repère.
Segment "Motion" : Le mouvement où l'objet manipulé se déplace avec le gripper.
Pour les segments de mouvement, un Modèle de Langage Visuel (VLM) (Gemini-2.5-Pro) est utilisé de manière légère et hors ligne pour identifier l'objet de référence statique ( $o_{ref}$ ) vers lequel l'objet est déplacé (ex: une porte par rapport à son cadre). Cela permet d'exprimer les trajectoires dans un repère relatif sémantiquement significatif.

B. Apprentissage des Prédicats Symboliques

Les prédicats sont définis comme des classificateurs de poses relatives :

Prédicats de pose relative (Objet-Gripper) : Pour les segments "pre-motion", les distributions de poses relatives sont modélisées par des gaussiennes. Un prédicat est vrai si la distance de Mahalanobis par rapport à la moyenne est inférieure à un seuil.
Prédicats de pose relative (Objet-Objet) : Pour les segments "motion", les poses relatives entre l'objet manipulé et l'objet de référence sont modélisées de la même manière.
Ces prédicats forment la base de l'état symbolique.

C. Apprentissage des Opérateurs et des Compétences

Opérateurs : En analysant les transitions entre les états symboliques déduits des démonstrations, le système infère des opérateurs (templates d'actions) définis par des préconditions, des effets (ajout/suppression de prédicats), des conditions de maintien et une compétence associée.
Compétences (Skills) : Chaque opérateur est associé à une politique de mouvement basée sur un Système Dynamique (DS) de type LPV-DS (Linear Parameter Varying) dans le repère SE(3). Ces politiques sont stables, convergentes et robustes aux perturbations. Elles sont apprises à partir de très peu de données (5 à 10 démonstrations).

D. Exécution en Ligne et Récupération

Planification : Un planificateur symbolique (A*) compose les opérateurs appris pour atteindre un but symbolique spécifié.
Exécution Réactive : Les compétences DS sont exécutées en boucle fermée avec un contrôleur d'impédance passif.
Récupération d'erreurs :
- Au niveau symbolique : Si une condition de maintien est violée ou si un effet attendu n'est pas atteint, le système replanifie immédiatement à partir de l'état actuel.
- Au niveau continu : En cas d'échec (ex: perte de prise), le système rééchantillonne l'attracteur de la politique (le but de la compétence) à partir de la distribution apprise, permettant au robot de réessayer l'action sans replanification complète.
- Évitement d'obstacles : Une modulation locale de la politique DS permet d'éviter les obstacles dynamiques sans arrêter le mouvement.

3. Contributions Clés

Cadre d'apprentissage non supervisé : Découverte conjointe de prédicats, d'opérateurs et de compétences orientées vers un but à partir de démonstrations non segmentées et non étiquetées.
Efficacité des données : Le système apprend avec aussi peu que 5 démonstrations par tâche, contrairement aux méthodes nécessitant des centaines de démonstrations.
Récupération en temps réel : Combinaison de la planification symbolique rapide et de politiques de mouvement stables (DS) permettant une récupération automatique aux niveaux symbolique et continu.
Implémentation Open Source : Code disponible pour RoboCasa et validation sur un robot réel Franka Panda.

4. Résultats Expérimentaux

Les résultats ont été validés dans la simulation RoboCasa et sur un robot Franka Panda dans le monde réel.

Simulation (RoboCasa) :
- Sur 12 tâches à un seul pas, SymSkill atteint un taux de réussite de 85 % (moyenne) avec seulement 5 à 10 démonstrations.
- Il compose ces compétences pour exécuter des tâches multi-étapes sans données supplémentaires.
- Comparé aux politiques de diffusion (Diffusion Policy) qui échouent presque totalement (3,3 % de réussite) en raison du manque de données et du manque de stabilité, les politiques DS convergentes sont nettement supérieures.
- Comparé à la méthode de référence NSIL, SymSkill génère des prédicats sémantiquement plus pertinents et évite les échecs dus à des prédicats spurius.
Monde Réel (Franka Panda) :
- Le robot apprend 11 opérateurs à partir de 5 minutes de données de jeu (play data) non segmentées.
- Il réussit à accomplir des tâches complexes à long horizon (ex: "Stockage du fromage") en enchaînant des compétences apprises (ouvrir la porte, prendre l'objet, placer l'objet, fermer la porte).
- Le système démontre une robustesse face aux perturbations humaines (fermeture de couvercle, déplacement d'objets, ajout d'obstacles) grâce aux mécanismes de récupération.

5. Signification et Impact

SymSkill comble le fossé entre l'apprentissage par imitation (réactivité) et la planification symbolique (compositionnalité). Sa principale avancée réside dans sa capacité à apprendre des abstractions sémantiques et des compétences stables à partir de très peu de données, tout en garantissant une récupération d'erreurs en temps réel.

Cela ouvre la voie à des robots généralistes capables d'apprendre de nouvelles tâches complexes dans des environnements domestiques ou industriels simplement en observant quelques démonstrations, sans nécessiter de programmation manuelle fastidieuse ni de temps de calcul prohibitif pour la planification. L'utilisation d'un VLM uniquement pour l'identification d'objets de référence (hors ligne) permet d'éviter la latence et les erreurs de raisonnement en temps réel, rendant le système pratique pour le déploiement réel.