ROSER: Few-Shot Robotic Sequence Retrieval for Scalable Robot Learning

Each language version is independently generated for its own context, not a direct translation.

🤖 ROSER : Le "Google Images" pour les Robots

Imaginez que vous avez une bibliothèque immense remplie de millions de vidéos de robots qui bougent, mais aucune n'est étiquetée. C'est comme avoir une montagne de DVD de films, mais sans les titres sur les boîtiers. Vous voulez apprendre à un robot à "ouvrir un tiroir", mais vous ne savez pas où chercher dans cette montagne de vidéos les moments précis où un robot le fait.

C'est le problème que ROSER (Robotic Sequence Retrieval) vient résoudre.

1. Le Problème : Une bibliothèque en désordre

Les robots modernes apprennent grâce à des données massives. Mais ces données sont souvent enregistrées sous forme de longs flux continus, comme une vidéo de 10 heures d'un robot qui fait n'importe quoi dans une cuisine.

Le problème : Pour entraîner un robot, on a besoin de "morceaux" précis (ex: "les 5 secondes où il attrape la tasse").
La solution actuelle (lente) : Des humains doivent regarder des heures de vidéo pour découper manuellement ces moments. C'est long, cher et impossible à faire à grande échelle.

2. La Solution : ROSER, le détective à 5 doigts

Les auteurs proposent une méthode géniale : au lieu de tout étiqueter, on donne au robot un seul exemple (ou 3 ou 5) de ce qu'on veut trouver, et on lui dit : "Trouve-moi tous les moments dans la bibliothèque qui ressemblent à ça."

C'est comme si vous montiez une photo de votre chat sur un moteur de recherche, et que celui-ci trouvait instantanément tous les chats du monde entier, même si vous ne leur aviez jamais dit "c'est un chat".

Comment ça marche ?

L'approche "Few-Shot" (Quelques exemples) : ROSER n'a pas besoin de lire des millions de livres pour apprendre. Il regarde juste 3 ou 5 exemples de référence.
La "Boussole" (Espace métrique) : ROSER crée une carte mentale. Sur cette carte, tous les mouvements qui ressemblent à "ouvrir un tiroir" sont regroupés ensemble, et ceux qui ressemblent à "manger" sont loin.
La recherche rapide : Quand on lui demande de chercher, il utilise cette boussole pour sauter directement aux bons endroits, sans avoir à tout lire mot à mot.

3. L'Analogie du Chef Cuisinier 🍳

Imaginez un chef cuisinier (le robot) qui veut apprendre à faire un "omelette parfaite".

Méthode ancienne : Il doit lire 10 000 livres de cuisine et essayer de deviner quelles pages parlent d'omelettes.
Méthode ROSER : Le chef regarde une seule vidéo d'un grand chef qui fait une omelette. Ensuite, il passe en revue des milliers d'heures de vidéos de cuisines différentes. Grâce à ROSER, il identifie instantanément les moments où d'autres cuisiniers battent des œufs ou retournent une omelette, même si la cuisine est différente ou si le cuisinier est gaucher.

4. Pourquoi c'est révolutionnaire ?

Les chercheurs ont testé ROSER sur trois grands ensembles de données (des robots qui manipulent des objets et des voitures autonomes).

Vitesse : ROSER est incroyablement rapide. Il trouve un match en moins d'un millième de seconde. C'est comme si vous trouviez une aiguille dans une botte de foin en un claquement de doigts.
Précision : Contrairement aux anciennes méthodes qui se trompaient souvent (confondant "ouvrir un tiroir" avec "ouvrir un four"), ROSER comprend la sémantique du mouvement. Il sait que pour ouvrir un tiroir, il faut tirer, pas pousser.
Économie : Il faut très peu d'exemples pour le faire fonctionner. Pas besoin d'une armée d'annotateurs humains.

5. Le Résultat Final

Grâce à ROSER, nous pouvons transformer des montagnes de données brutes et inutilisées en bibliothèques organisées et prêtes à l'emploi.
C'est comme passer d'une bibliothèque où les livres sont jetés en vrac au sol, à une bibliothèque où chaque livre est rangé sur la bonne étagère, juste parce qu'on a montré un seul exemple de livre à un robot bibliothécaire très intelligent.

En résumé : ROSER permet aux robots d'apprendre beaucoup plus vite et avec beaucoup moins d'aide humaine, en apprenant à "reconnaître" les bons mouvements dans un océan de données, simplement en leur montrant un tout petit peu de ce qu'ils doivent faire.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « ROSER: FEW-SHOT ROBOTIC SEQUENCE RETRIEVAL FOR SCALABLE ROBOT LEARNING » (ROSER : Récupération de séquences robotiques en peu d'exemples pour l'apprentissage robotique évolutif), publié au workshop DATA-FM 3 @ ICLR 2026.

1. Problématique : La crise de l'utilisation des données robotiques

L'apprentissage robotique généraliste dépend de l'accès à des masses de données diversifiées. Cependant, un goulot d'étranglement majeur persiste :

Incompatibilité structurelle : Les grands ensembles de données robotiques existants (comme nuScenes, DROID, LIBERO) sont enregistrés sous forme de logs continus et non segmentés, sans étiquettes de tâches ni limites sémantiques claires.
Coût de l'annotation : Les frameworks d'apprentissage modernes (modèles Vision-Language-Action, World Models) nécessitent des trajectoires proprement segmentées et étiquetées par tâche. L'annotation manuelle de ces logs est prohibitivement coûteuse et ne généralise pas bien.
Limites des méthodes existantes : Les méthodes d'alignement classique (ex: DTW) manquent de compréhension sémantique, tandis que les approches basées sur l'embedding ou les grands modèles de langage (LLM) sont soit trop sensibles à la variabilité d'exécution, soit trop lentes et gourmandes en ressources pour une recherche à grande échelle.

Objectif : Transformer la curation de données en un problème de récupération en peu d'exemples (few-shot retrieval). L'idée est d'identifier automatiquement des segments de tâches réutilisables dans des logs non étiquetés en utilisant seulement 3 à 5 démonstrations de référence, sans entraînement spécifique à la tâche.

2. Méthodologie : Le cadre ROSER

Les auteurs proposent ROSER (Robotic Sequence Retrieval), un cadre léger basé sur l'apprentissage métrique.

A. Formulation du problème

Le but est d'apprendre une fonction d'encodage $f_\theta$ qui mappe des segments de séries temporelles robotiques (états articulaires, pose de l'effecteur, etc.) dans un espace métrique partagé. Dans cet espace, les segments correspondant à la même tâche sont regroupés, tandis que les comportements différents sont séparés.

B. Architecture et Encodage

Encodage Temporel : Contrairement aux Transformers ou aux LLMs qui nécessitent d'énormes quantités de données pour apprendre les dépendances temporelles, ROSER utilise un réseau de convolution 1D (1D CNN).
- Justification : Les signaux de contrôle robotique possèdent une forte inductivité de localité (l'état $t$ dépend fortement de ses voisins immédiats) et d'équivariance aux décalages temporels (une action comme "saisir" est sémantiquement identique quelle que soit sa position dans la fenêtre). Les CNN exploitent ces biais inductifs naturellement, évitant le surapprentissage (overfitting) sur de petits ensembles de données.
Apprentissage Métrique (Prototypical Networks) :
- Pour une tâche cible $t$ , un prototype $c(t)$ est calculé comme la moyenne des embeddings des $K$ exemples de support (les 3-5 démonstrations de référence).
- La similarité est mesurée par la distance euclidienne quadratique dans l'espace latent.

C. Paradigme d'entraînement Épisodique

Le modèle est entraîné via un paradigme "episodic" (par épisodes) :

On échantillonne un épisode contenant $N$ tâches.
Pour chaque tâche, on sélectionne $K$ exemples de support (pour former le prototype) et $Q$ exemples de requête.
L'objectif est de minimiser la perte de log-vraisemblance négative, forçant l'encodeur à regrouper les embeddings d'une même tâche autour de leur prototype tout en maximisant la distance entre les tâches différentes.

D. Processus de Récupération

Une fois entraîné, le système fonctionne ainsi sur des logs non étiquetés :

Construction de prototypes : Calcul des prototypes à partir des quelques exemples de référence.
Recherche par fenêtre glissante : Application de la fenêtre glissante sur les trajectoires continues pour extraire des segments candidats.
Calcul de distance : Comparaison de chaque fenêtre avec les prototypes.
Post-traitement (NMS) : Application de la suppression non maximale (Non-Maximum Suppression) pour éliminer les redondances temporelles et ne garder que les occurrences distinctes de la tâche.

3. Contributions Clés

Formalisation : Définition formelle de la récupération de séquences robotiques comme un problème d'apprentissage en peu d'exemples.
ROSER : Introduction d'un framework léger, ne nécessitant aucun entraînement spécifique à la tâche au déploiement, capable de fonctionner avec seulement 3 à 5 exemples.
Protocoles d'évaluation : Établissement de protocoles complets et de benchmarks sur trois grands ensembles de données (LIBERO, DROID, nuScenes) couvrant la manipulation robotique et la conduite autonome.
Performance : Démonstration que ROSER surpasse les méthodes classiques (DTW, STUMPY), les embeddings appris et les grands modèles (LLM) en termes de précision et d'efficacité.

4. Résultats Expérimentaux

Les expériences ont été menées sur LIBERO (manipulation simulée), DROID (manipulation réelle) et nuScenes (conduite autonome).

Précision et Qualité :
- ROSER obtient systématiquement les meilleurs ou deuxième meilleurs résultats sur toutes les métriques : Distance de Wasserstein (WD), DTW Nearest Neighbor, Corrélation Temporelle, Densité et Diversité.
- Il surpasse les modèles fondationnels (MOMENTFM) et les LLMs (Gemma, Llama, Qwen) qui, bien que puissants, échouent à capturer la structure cinématique fine sans ajustement spécifique.
- Exemple qualitatif : Pour la tâche "ouvrir un tiroir inférieur" (LIBERO), ROSER récupère correctement les trajectoires évitant les collisions, tandis que les méthodes classiques confondent souvent avec des tâches de "prise et dépôt" visuellement similaires mais sémantiquement différentes.
Efficacité et Latence :
- Vitesse : ROSER atteint une inférence sub-milliseconde par correspondance (ex: ~0.5 ms sur LIBERO), rendant la recherche exhaustive sur de longs logs praticable.
- En comparaison, les LLMs sont des ordres de grandeur plus lents (>100 ms), rendant leur utilisation pour le mining de données à grande échelle impraticable.
Efficacité des Données (Few-Shot) :
- L'ablation sur le nombre d'exemples ( $K$ ) montre que ROSER reste robuste même avec seulement 3 à 5 exemples. Une légère dégradation est observée à $K=3$ , mais la performance reste compétitive, confirmant que le réseau peut définir un manifold de tâche fiable avec très peu de données.
Analyse des Caractéristiques :
- Pour la manipulation, les états articulaires (joint states) et la pose de l'effecteur sont les caractéristiques les plus critiques.
- Pour la conduite, la vitesse est le facteur déterminant.

5. Signification et Impact

Ce travail offre une solution pratique au problème de l'exploitation des données robotiques sous-utilisées :

Déverrouillage des données : Il permet de transformer des logs bruts et non structurés en ensembles de données structurés et réutilisables pour l'apprentissage par imitation, l'évaluation de politiques et l'entraînement de modèles fondationnels.
Adaptabilité rapide : Les chercheurs peuvent définir de nouvelles tâches et récupérer instantanément des données pertinentes sans annotation manuelle massive.
Évolutivité : Grâce à sa légèreté et sa rapidité, ROSER est adapté aux environnements contraints en ressources et aux pipelines de données à grande échelle.
Fondation pour le futur : L'article établit la récupération de séquences robotiques comme un problème de recherche fondamental, ouvrant la voie à des extensions multimodales (fusion avec la vision) et à une meilleure organisation des données pour l'apprentissage de robots généralistes.

En résumé, ROSER propose un changement de paradigme : au lieu de forcer les données à s'adapter aux modèles via une annotation lourde, il utilise des modèles légers et adaptatifs pour extraire la sémantique directement des flux de données bruts.