Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez un robot domestique très intelligent, capable de comprendre vos ordres comme "nettoie le bureau" ou "plie le linge". Jusqu'à présent, ces robots avaient un gros problème : ils ne savaient faire que ce qu'on leur avait appris à l'avance. Si vous leur demandiez une tâche qu'ils ne connaissaient pas, ils restaient bloqués, comme un cuisinier qui ne sait faire que des œufs au plat et refuse de cuisiner une omelette parce que la recette n'est pas dans son livre.

Le papier que vous avez partagé présente une solution géniale appelée Uni-Skill. Voici comment cela fonctionne, expliqué simplement avec des images du quotidien.

1. Le Problème : Le Robot avec une "Boîte à Outils" Rigide

Les robots actuels fonctionnent avec une liste fixe de compétences (des "API" ou des boutons magiques).

L'analogie : Imaginez un menu de restaurant très limité. Si vous commandez "un plat avec du piment", le serveur (le robot) dit : "Désolé, nous n'avons pas de piment dans notre cuisine". Il ne peut pas improviser.
La limite : Pour apprendre une nouvelle tâche, il faut souvent qu'un humain vienne filmer le robot en train de le faire, ce qui prend du temps et coûte cher.

2. La Solution : Uni-Skill, le Robot "Apprenti Curieux"

Uni-Skill change la donne en donnant au robot deux super-pouvoirs :

A. Le "Detecteur de Manque" (Planification consciente des compétences)

Quand vous donnez une instruction, le robot ne se contente pas de chercher dans sa boîte à outils. Il se pose d'abord la question : "Est-ce que je sais déjà faire ça ?"

L'analogie : C'est comme un chef cuisinier qui regarde sa liste d'ingrédients. Si vous lui demandez de faire un gâteau au chocolat et qu'il n'a pas de cacao, il ne dit pas "Je ne peux pas". Il dit : "Attends, je n'ai pas de cacao, mais je vais inventer une nouvelle recette pour en faire un, ou je vais aller chercher du cacao ailleurs."
Ce que fait le robot : S'il manque une compétence (par exemple, "essuyer la table"), il génère automatiquement une description de cette nouvelle tâche pour pouvoir la réaliser.

B. La "Bibliothèque Vivante" (SkillFolder)

C'est ici que la magie opère. Au lieu d'attendre qu'un humain filme le robot, Uni-Skill va fouiller dans une immense base de données de vidéos robotiques trouvées sur Internet (des vidéos brutes, non étiquetées).

L'analogie : Imaginez une bibliothèque géante remplie de millions de vidéos de gens faisant des tâches diverses, mais sans aucun titre ni index. C'est le chaos. Uni-Skill construit un système de classement intelligent (inspiré d'un dictionnaire de verbes appelé VerbNet).
Comment ça marche :
1. Il regarde une vidéo brute.
2. Il comprend : "Ah, cette vidéo montre quelqu'un qui essuie une surface".
3. Il classe cette vidéo dans la catégorie "Essuyer", puis dans la sous-catégorie "Essuyer avec un chiffon", etc.
4. Résultat : Il crée une bibliothèque structurée de plus de 10 000 exemples, classés par type de mouvement.

3. Comment le Robot Apprend "Sur le Tas" (Sans Humain)

Quand le robot doit faire une nouvelle tâche (ex: "essuyer la table") et qu'il n'a jamais vu cette vidéo précise :

Il va chercher dans sa bibliothèque (SkillFolder) des exemples similaires (ex: "essuyer un comptoir" ou "essuyer une vitre").
Il regarde ces exemples comme un étudiant qui regarde un camarade faire un exercice.
Il copie les mouvements, mais les adapte à sa situation (la taille de la table, la position du chiffon).
Le résultat : Il réalise la tâche sans qu'aucun humain n'ait besoin de lui montrer comment faire spécifiquement cette fois-ci. C'est ce qu'on appelle l'apprentissage "few-shot" (peu d'exemples) ou "zero-shot" (aucun exemple direct).

4. Les Résultats : Un Robot qui Devient de Plus en Plus Intelligent

Les chercheurs ont testé ce système dans des simulations et dans le monde réel.

Résultat : Le robot Uni-Skill a réussi beaucoup mieux que les autres robots intelligents actuels, surtout pour les tâches qu'il ne connaissait pas du tout.
L'image finale : Au lieu d'être un robot rigide qui ne fait que ce qu'on lui a programmé, Uni-Skill est comme un artisan polyvalent. Il a une boîte à outils de base, mais s'il manque un outil, il sait comment le fabriquer en regardant comment d'autres l'ont fait, et il l'ajoute à sa boîte pour la prochaine fois.

En Résumé

Uni-Skill, c'est la fin du robot qui dit "Je ne sais pas faire ça". Grâce à une bibliothèque de compétences auto-organisée et à une capacité à inventer de nouvelles tâches en s'inspirant de vidéos existantes, ce robot devient capable de s'adapter à n'importe quelle situation nouvelle, tout seul, sans avoir besoin d'un professeur humain à chaque fois. C'est un grand pas vers un robot domestique vraiment utile et autonome.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les approches centrées sur les compétences (skill-centric) utilisent des modèles de fondation pour améliorer la généralisation des tâches de manipulation robotique. Cependant, elles souffrent d'une limitation majeure : elles reposent sur des bibliothèques de compétences fixes.

Manque d'adaptabilité : Si une tâche nécessite une compétence non pré-définie (par exemple, "plier un vêtement" alors que seule "saisir" est disponible), le système échoue.
Dépendance à l'annotation manuelle : Les méthodes existantes nécessitent souvent des démonstrations manuelles ou des annotations de points de passage (waypoints) pour chaque nouvelle compétence lors du déploiement, ce qui est inefficace et coûteux.
Sous-utilisation des données : Bien qu'il existe d'énormes quantités de vidéos robotiques non structurées, elles ne sont pas exploitées car elles manquent de liens sémantiques explicites vers des compétences spécifiques.

L'objectif est de créer un système capable d'identifier les lacunes de compétences, de générer automatiquement de nouvelles descriptions de compétences, et de les implémenter sans intervention humaine, en exploitant des données non structurées.

2. Méthodologie : Le Framework Uni-Skill

Les auteurs proposent Uni-Skill, un cadre unifié centré sur les compétences qui intègre deux modules principaux : la planification consciente des compétences (skill-aware planning) et l'évolution automatique des compétences (automatic skill evolution).

A. Planification Consciente des Compétences

Ce module permet au système de dépasser une bibliothèque de compétences prédéfinie. Il fonctionne en trois étapes interdépendantes :

Discriminateur de suffisance ( $E$ ) : Évalue si les compétences de base actuelles suffisent pour exécuter une instruction donnée (ex: "nettoyer le bureau").
Générateur de compétences ( $G$ ) : Si des compétences manquent, le système génère automatiquement de nouvelles descriptions de compétences (sous forme de code/API) pour combler le vide.
Planificateur ( $P$ ) : Génère un code de politique exécutable en utilisant la bibliothèque de compétences enrichie (base + générée).

Technologie : Utilise un Modèle de Langage-Vision (VLM) entraîné sur 106 000 échantillons de code pour comprendre le contexte multimodal et générer du code.

B. Évolution Automatique des Compétences

Pour ancrer les nouvelles descriptions de compétences dans des actions exécutables, le système utilise une base de données structurée appelée SkillFolder.

Annotation Automatique : Une pipeline basée sur VLM (utilisant Gemini-2.0-Flash) extrait des connaissances procédurales à partir de vidéos robotiques brutes (non structurées). Elle découpe les vidéos, génère des descriptions d'étapes et aligne temporellement ces descriptions avec les segments vidéo.
Organisation Hiérarchique (SkillFolder) : Inspiré par VerbNet (pour les verbes) et WordNet (pour les objets), SkillFolder organise les compétences en une taxonomie à quatre niveaux :
- Niveau 1 : Classes de verbes abstraites (ex: "manière d'essuyer").
- Niveau 2 : Instances de verbes spécifiques (ex: "essuyer", "frotter").
- Niveau 3 : Modèles d'interaction centrés sur l'objet (ex: "essuyer la table").
- Niveau 4 : Tranches de compétences visuelles concrètes (exemples vidéo).
- Résultat : Une base de données de plus de 10 000 traces de compétences annotées, couvrant 106 classes VerbNet et 1 659 descriptions uniques.
Implémentation Few-Shot : Lorsqu'une nouvelle compétence est demandée, le système :
- Récupère des exemples pertinents dans SkillFolder via une recherche sémantique.
- Utilise ces exemples pour fournir des contraintes sémantiques (points de contact, logique) et des références de trajectoire spatiale (points de passage 2D/3D).
- Génère une trajectoire 6-DoF (6 degrés de liberté) pour le robot en transférant les motifs d'orientation des exemples vers le scénario cible.

3. Contributions Clés

Paradigme d'évolution autonome : Passage d'une bibliothèque de compétences statique à une bibliothèque auto-augmentée capable de s'adapter dynamiquement aux nouvelles tâches.
SkillFolder : Création d'un référentiel hiérarchique de compétences dérivé de vidéos non structurées, reliant des données brutes à une taxonomie sémantique structurée (inspirée de VerbNet).
Génération de code sans démonstration : Capacité à implémenter de nouvelles compétences en few-shot (quelques exemples) en utilisant la récupération d'exemples et la génération de trajectoires, éliminant le besoin de démonstrations humaines au moment du déploiement.
Intégration VLM-Code : Utilisation efficace des modèles VLM pour la planification, la génération de descriptions de compétences et l'alignement visuel.

4. Résultats Expérimentaux

Les expériences ont été menées en simulation (RLBench) et dans le monde réel (bras robotique Franka Emika).

Simulation (RLBench) :
- Sur des tâches hors de la bibliothèque de base (10 tâches nouvelles), Uni-Skill atteint un taux de réussite moyen de 41%, surpassant largement la méthode de pointe MOKA (10%) et CaP (1%).
- Amélioration de 31% par rapport à MOKA sur les tâches nécessitant des compétences non pré-définies.
Monde Réel :
- Sur 8 tâches variées, Uni-Skill atteint un taux de réussite moyen de 73%, contre 39% pour MOKA et 0% pour CaP (qui échoue sur les tâches hors bibliothèque).
- Performances notables sur des tâches complexes comme "plier un tissu" (70% vs 20% pour MOKA) et "fermer un tiroir" (70% vs 50% pour MOKA).
Études d'ablation :
- La désactivation du mécanisme de mise à jour des compétences fait chuter les performances, confirmant son rôle crucial.
- Les contraintes sémantiques et les références de trajectoire sont toutes deux essentielles, mais leur importance varie selon le type de tâche (contact vs précision spatiale).
- L'utilisation de vidéos robotiques (DROID) donne de meilleurs résultats que les vidéos humaines (sth2sth) en raison de la qualité des annotations et de la perspective.

5. Signification et Impact

Uni-Skill représente une avancée significative vers la généralisation zéro-shot en robotique.

Réduction de la charge humaine : Il élimine le goulot d'étranglement de l'annotation manuelle pour chaque nouvelle tâche, permettant aux robots d'apprendre à partir de vastes corpus de vidéos existants.
Robustesse et Adaptabilité : Le système démontre une capacité de raisonnement supérieur pour décomposer des instructions complexes et gérer des environnements non vus.
Futur : Ce travail ouvre la voie à des systèmes robotiques capables d'évoluer continuellement, d'acquérir de nouvelles compétences de manière autonome et de s'adapter à des scénarios du monde réel imprévus sans réentraînement coûteux.

En résumé, Uni-Skill transforme la manière dont les robots acquièrent des compétences : d'une approche statique et manuelle vers une approche dynamique, structurée et auto-évolutive basée sur l'extraction de connaissances à grande échelle.