NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment faire la vaisselle. Les robots actuels, basés sur les modèles d'intelligence artificielle les plus récents, fonctionnent un peu comme un enfant qui apprendrait par imitation pure. On lui montre mille fois comment prendre une assiette, la laver et la ranger, et il essaie de mémoriser chaque mouvement précis.

Le problème ? Si vous changez la lumière de la cuisine, si l'assiette est d'une couleur différente, ou si vous lui donnez une instruction légèrement différente, le robot se perd. Il a appris à "danser" une chorégraphie spécifique, mais il ne comprend pas la logique derrière les mouvements. De plus, il faut des milliers d'exemples pour qu'il apprenne, ce qui est long et coûteux.

C'est là qu'intervient NS-VLA, une nouvelle approche présentée dans ce papier. Pour faire simple, c'est comme passer d'un robot qui mémorise à un robot qui réfléchit.

Voici comment cela fonctionne, avec quelques analogies :

1. Le Chef d'Orchestre et les Musiciens (Neuro-Symbolique)

Imaginez que le robot est un orchestre.

L'ancien modèle (VLA classique) : C'est un musicien qui joue une partition par cœur. S'il oublie une note, il panique. Il ne sait pas pourquoi il joue cette note.
Le nouveau modèle (NS-VLA) : Il y a maintenant un Chef d'Orchestre (la partie "Symbolique").
- Quand vous dites au robot : "Mets la tasse sur la table", le Chef ne regarde pas chaque mouvement de la main. Il décompose la tâche en briques logiques (ou "primitives") : 1. Attraper la tasse, 2. La soulever, 3. La poser.
- Ces briques sont comme des Lego. Le robot peut les réutiliser pour d'autres tâches (ex: "Mets le livre sur l'étagère" utilise la même brique "Attraper" et "Poser").

2. Le Filtre Magique (L'Encodeur Symbolique)

Quand un robot regarde une image, il voit des millions de pixels (comme un brouillard d'informations).

L'ancien modèle : Il essaie de tout analyser en même temps, ce qui le ralentit et le confond si l'arrière-plan change.
NS-VLA : Il utilise un filtre intelligent. Si la tâche est "attraper la tasse rouge", le robot ignore instantanément le fond de la pièce, la couleur du mur ou la chaise voisine. Il ne garde que les pixels importants (la tasse). C'est comme si vous portiez des lunettes de réalité augmentée qui surlignent uniquement l'objet à manipuler, rendant la tâche beaucoup plus simple et rapide.

3. L'Apprentissage par l'Erreur (Reinforcement Learning en ligne)

C'est la partie la plus géniale.

L'ancien modèle : Il s'entraîne sur un livre de recettes (des données statiques). Il ne peut pas essayer de nouvelles choses. S'il rate, il ne le sait pas vraiment.
NS-VLA : Il est comme un apprenti cuisinier qui ose essayer.
- Il a une idée de plan (les briques Lego).
- Il essaie d'exécuter l'action dans le monde réel (ou en simulation).
- S'il rate, il reçoit un petit "pincement" (une récompense négative) et ajuste sa stratégie immédiatement.
- Il explore l'environnement activement. Au lieu de juste copier ce qu'il a vu, il teste : "Et si je prenais la tasse par le bord ?" ou "Et si je la posais plus doucement ?". Cela lui permet de trouver des solutions que personne n'avait jamais montrées.

Pourquoi est-ce une révolution ?

Moins de données, plus de sagesse : Alors que les autres robots ont besoin de voir une tâche 10 000 fois pour la comprendre, NS-VLA peut souvent l'apprendre en la voyant une seule fois (ou presque), car il comprend la logique sous-jacente (les briques Lego).
Robustesse : Si vous changez la disposition de la cuisine ou la couleur des objets, le robot ne panique pas. Il se concentre sur la logique de l'action ("Je dois attraper l'objet X") plutôt que sur la mémoire visuelle exacte.
Exploration : Il n'est pas bloqué par ce qu'il a vu. Il peut inventer de nouvelles façons de faire les choses pour réussir, ce qui le rend plus adaptable et intelligent.

En résumé :
NS-VLA ne fait pas juste "imiter" un humain. Il comprend la structure de la tâche, ignore le bruit inutile, et expérimente pour s'améliorer. C'est le passage d'un robot qui est un simple enregistreur de mouvements à un robot qui est un véritable assistant capable de raisonner et de s'adapter à n'importe quelle situation.

Each language version is independently generated for its own context, not a direct translation.

Titre : NS-VLA : Vers des modèles Neuro-Symboliques Vision-Language-Action

1. Problématique

Les modèles Vision-Language-Action (VLA) actuels visent à ancrer des instructions naturelles dans un contexte visuel pour générer des séquences d'actions destinées à la manipulation robotique. Malgré les progrès récents (notamment via l'adaptation de grands modèles de langage multimodaux), ces approches souffrent de trois limitations majeures :

Manque de conscience structurelle : Les méthodes end-to-end génèrent directement des actions continues sans capturer les connexions internes ni les primitives réutilisables, ce qui nuit à la généralisation.
Dépendance excessive aux données et architectures complexes : Les performances reposent souvent sur des modèles massifs et de vastes ensembles de démonstrations, rendant l'apprentissage inefficace en termes de données (ex: apprentissage en one-shot).
Exploration limitée : Les méthodes basées sur le Supervised Fine-Tuning (SFT) se limitent à imiter des trajectoires d'experts, empêchant l'agent d'explorer activement l'environnement au-delà des démonstrations statiques.

2. Méthodologie : Le Framework NS-VLA

Les auteurs proposent NS-VLA, un cadre novateur combinant l'apprentissage par renforcement en ligne (RL) et une approche neuro-symbolique. L'architecture se compose de trois modules couplés :

A. Encodage Neuro-Symbolique et Planification

Encodeur : Un VLM pré-entraîné encode les observations visuelles et les instructions linguistiques.
Génération de plan symbolique : Au lieu de prédire directement les actions, le modèle génère un plan structuré composé de primitives symboliques (ex: pick, place_on, close).
Contrainte de monotonie : Un pointeur de plan ( $m_t$ ) est maintenu pour suivre l'exécution. Une contrainte stricte impose que le plan avance d'au plus une étape à la fois, stabilisant ainsi les transitions temporelles et évitant les oscillations.

B. Classificateur de Primitives et Solveur Symbolique

Classificateur : Un module léger (MLP) prédit quelle primitive du plan est actuellement en cours d'exécution, en se basant sur les caractéristiques visuelles. Il utilise une fenêtre de supervision centrée sur les transitions pour affiner les limites des segments.
Solveur (Générateur d'actions) :
- Sparsification visuelle : Un mécanisme d'attention conditionné par la primitive actuelle filtre les tokens visuels, ne conservant que les patches pertinents (Top-K), réduisant ainsi la redondance computationnelle.
- Génération par blocs (Chunking) : Le solveur, basé sur un Transformer causal, génère des blocs d'actions continues (ex: 8 pas) plutôt que des actions individuelles, améliorant l'efficacité en temps réel.

C. Optimisation par Apprentissage par Renforcement en Ligne (RL)

Formulation POMDP : Le problème est traité comme un processus de décision markovien partiellement observable.
Récompenses hiérarchiques :
- Récompense de segment : Attribuée lors de la transition réussie d'une primitive à l'autre.
- Façonnage de progression (Progress Shaping) : Utilise des prototypes latents appris à partir de segments réussis pour guider l'agent vers l'état cible au sein d'un segment.
Optimisation GRPO : Utilisation de l'algorithme Group Relative Policy Optimization avec une régularisation KL par rapport à une politique de référence (imitation comportementale) pour éviter l'effondrement de la politique et stabiliser l'apprentissage en ligne.

3. Contributions Clés

Cadre Neuro-Symbolique pour la Robotique : Intégration réussie de la planification symbolique (primitives) avec l'apprentissage profond pour la manipulation, offrant une meilleure interprétabilité et structure.
Efficacité des Données (Data Efficiency) : Capacité à apprendre efficacement avec très peu de données (apprentissage one-shot), grâce à l'induction de biais par les plans symboliques.
Exploration Active : L'utilisation du RL en ligne permet à l'agent d'explorer au-delà des démonstrations statiques, découvrant des trajectoires optimales et s'adaptant aux perturbations.
Architecture Efficace : Combinaison de la sparsification visuelle et de la génération d'actions par blocs pour réduire la latence et la charge computationnelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks LIBERO, LIBERO-Plus (avec perturbations environnementales) et CALVIN (tâches à long horizon).

Performance en One-Shot : NS-VLA surpasse significativement les méthodes de base (OpenVLA, $\pi_0$ , UniVLA, etc.) dans le scénario d'apprentissage avec une seule démonstration par tâche. Il maintient un taux de réussite élevé (ex: 69.1% en moyenne sur LIBERO vs ~35-55% pour les autres) avec une dégradation minimale par rapport à l'entraînement complet.
Robustesse aux Perturbations : Sur LIBERO-Plus (changement de lumière, texture, disposition), NS-VLA démontre une stabilité supérieure, maintenant les meilleurs taux de réussite là où les modèles end-to-end échouent drastiquement.
Généralisation Zero-Shot : Sur CALVIN, le modèle atteint un taux de réussite de 91.2% pour une chaîne de 5 tâches, surpassant l'état de l'art.
Efficacité et Exploration : Les analyses montrent que NS-VLA explore un espace d'actions plus large et plus diversifié que les méthodes basées sur la diffusion ou le flow matching, grâce au RL en ligne.

5. Signification et Impact

Ce travail marque une étape importante vers la création d'agents incarnés de nouvelle génération. En passant d'une génération d'actions purement statistique à une approche neuro-symbolique structurée, NS-VLA résout le compromis entre la flexibilité des modèles de langage et la rigueur nécessaire à la manipulation physique.

Réduction des coûts : Moins dépendant des grandes quantités de données d'entraînement et d'architectures massives.
Fiabilité : Meilleure capacité à gérer les environnements dynamiques et les tâches complexes à long horizon.
Futur : Le papier ouvre la voie à l'apprentissage continu (lifelong learning) et à la découverte automatique de primitives, posant les bases d'une robotique plus autonome et adaptable.

En résumé, NS-VLA démontre que l'intégration de la raison symbolique dans les modèles VLA, couplée à l'exploration par RL, est une voie prometteuse pour surmonter les limites actuelles de la robotique apprenante.