On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Each language version is independently generated for its own context, not a direct translation.

🤖 RobustVLA : Comment rendre les robots plus "têtus" (dans le bon sens) face au chaos

Imaginez que vous apprenez à un robot à faire la vaisselle. Vous lui montrez une vidéo parfaite : il prend une assiette, la pose sur l'étagère, et tout se passe bien. C'est ce qu'on appelle un modèle VLA (Vision-Language-Action) : il voit (Vision), comprend vos ordres (Langage) et bouge ses bras (Action).

Mais dans la vraie vie, les choses ne sont jamais parfaites.

La lumière change soudainement.
Le robot trébuche un peu.
Vous lui dites "mets la tasse" avec un accent ou une phrase bizarre.
Un enfant pose un jouet sur la table (un objet inutile).

Le problème, c'est que la plupart des robots actuels sont comme des élèves très brillants mais très fragiles. Si la situation change un tout petit peu par rapport à ce qu'ils ont appris, ils paniquent et échouent.

Les chercheurs de ce papier (Guo et al.) ont voulu résoudre ce problème. Voici leur histoire, racontée simplement.

1. Le Diagnostic : Où est le point faible ? 🩺

Avant de réparer, il faut comprendre ce qui ne va pas. Les chercheurs ont testé les robots les plus modernes avec 17 types de "tracas" différents (bruit sur la caméra, fausses instructions, objets bizarres, mouvements brusques).

Leurs découvertes sont surprenantes :

Le point le plus fragile n'est pas la vue, mais les mouvements. C'est comme si le robot voyait parfaitement, mais que ses bras tremblaient dès qu'il y avait un petit courant d'air. Une erreur de mouvement, et tout s'effondre.
Les robots "anti-brouillard" ne sont pas "anti-vent". Il existait déjà des robots entraînés à ne pas se tromper si la caméra était sale. Mais si on changeait le bruit ou l'ordre, ils échouaient tout autant. La robustesse visuelle ne suffit pas.
Le champion inattendu : Un modèle appelé π0 (pi-zéro) s'est révélé être le plus résistant de tous, bien mieux que ses concurrents.

L'analogie : Imaginez un pilote d'avion. Certains sont formés pour ne pas paniquer si le brouillard arrive (vision). Mais ce papier dit : "Non, le vrai danger, c'est quand le moteur fait un bruit bizarre (action) ou qu'un passager crie une fausse instruction (langage). Il faut entraîner le pilote sur TOUT, pas juste sur le brouillard."

2. La Solution : RobustVLA 🛡️

L'équipe propose une nouvelle méthode appelée RobustVLA. L'idée est d'entraîner le robot non pas seulement à réussir quand tout va bien, mais à réussir même quand tout va mal. Ils le font en deux étapes :

A. Entraîner les bras à être "têtus" (Robustesse de la sortie)

Au lieu d'apprendre au robot une seule façon de faire un mouvement, on lui apprend à faire le mouvement même si ses muscles tremblent.

L'analogie : C'est comme apprendre à un gymnaste à faire une pirouette. D'habitude, il s'entraîne sur un sol parfait. Ici, on lui met des chaussures lourdes, on fait trembler le sol, et on lui dit : "Fais ta pirouette quand même !"
Le secret technique : Ils utilisent une astuce mathématique (appelée "Flow Matching") pour dire au robot : "Même si tu fais une erreur de 5%, ton mouvement doit rester logique." Cela évite que le robot ne parte dans tous les sens dès qu'il se trompe un tout petit peu.

B. Entraîner les yeux et les oreilles à ignorer le bruit (Robustesse de l'entrée)

Le robot doit comprendre que "mets la tasse" et "place le gobelet" signifient la même chose, même si la lumière change ou s'il y a des objets bizarres autour.

L'analogie : Imaginez que vous essayez de reconnaître un ami dans une foule. Si vous avez un bon sens de l'observation, vous le reconnaissez même s'il porte un chapeau, s'il pleut, ou s'il y a des affiches publicitaires partout.
Le chef d'orchestre (UCB) : Il y a 17 types de problèmes différents. Comment savoir sur lequel s'entraîner ? Les chercheurs utilisent un algorithme intelligent (appelé UCB, comme un joueur de poker qui parie sur ce qui rapporte le plus) qui détecte automatiquement : "Aujourd'hui, le robot échoue surtout à cause de la lumière. Concentrons-nous là-dessus !" Demain, ce sera le bruit dans les commandes.

3. Les Résultats : Un robot qui ne lâche rien 🏆

Les tests ont été faits sur des robots virtuels (dans un simulateur) et sur un vrai robot dans un vrai laboratoire.

En simulation : Le nouveau robot (RobustVLA) réussit 12 à 13 % de tâches en plus que les meilleurs robots actuels, et ce, dans presque toutes les situations de chaos.
Vitesse : Il est 50 fois plus rapide que les autres méthodes robustes qui nécessitent d'appeler un "super-cerveau" externe pour chaque décision. RobustVLA réfléchit tout seul, très vite.
Dans la vraie vie (Le test ultime) :
- Avec seulement 25 démonstrations (très peu de données), le robot RobustVLA réussit 65 % de plus que les autres.
- Même avec beaucoup de données, il reste 30 % meilleur.
- Pourquoi ? Parce que les autres robots apprennent par cœur la vidéo parfaite. RobustVLA, lui, a appris à s'adapter au chaos.

L'image finale :
Les autres robots sont comme des voitures de course : super rapides sur un circuit parfait, mais qui s'arrêtent net si une pierre est sur la route.
RobustVLA est comme un tout-terrain. Il est peut-être un tout petit peu moins rapide sur le bitume parfait, mais il traverse n'importe quel terrain (pluie, boue, obstacles) sans jamais tomber en panne.

En résumé

Ce papier nous dit : pour que les robots soient utiles dans nos maisons et nos usines, il ne suffit pas qu'ils soient intelligents. Il faut qu'ils soient résilients. En entraînant les robots à s'attendre au pire (bruit, erreurs, distractions), on obtient des machines qui fonctionnent vraiment, partout, tout le temps.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language-Action (VLA) sont devenus des fondations essentielles pour la robotique, permettant un contrôle généraliste et flexible. Cependant, leur déploiement dans le monde réel est entravé par une vulnérabilité critique aux perturbations multi-modales.

Les travaux existants se concentrent principalement sur la robustesse visuelle (bruit de caméra, distorsions d'image), négligeant les incertitudes provenant des autres modalités :

Actions : Bruit des actionneurs, usure, décalages de calibration.
Instructions : Ambiguïtés linguistiques, synonymes, prompts adverses.
Environnements : Objets distrayants, variations d'éclairage, forces externes.

L'article identifie un manque de solutions holistiques capables de gérer simultanément ces incertitudes à l'entrée (observations, instructions, environnement) et à la sortie (actions) du modèle.

2. Évaluation Préliminaire et Constats

Avant de proposer une solution, les auteurs évaluent la robustesse de modèles VLA courants (OpenVLA, $\pi_0$ , $\pi_0$ -FAST) face à 17 types de perturbations répartis sur 4 modalités. Les résultats clés sont :

La modalité "Action" est la plus fragile : Une petite perturbation dans la sortie d'action entraîne une chute drastique du taux de réussite, car les erreurs s'accumulent de manière quadratique dans les politiques apprises hors ligne (offline).
La robustesse visuelle ne se généralise pas : Les méthodes existantes robustes aux images (comme BYOVLA) n'apportent aucune amélioration sur les autres modalités (action, instruction, environnement).
$\pi_0$ est le backbone le plus robuste : Le modèle $\pi_0$ (basé sur le flow matching) surpasse OpenVLA et $\pi_0$ -FAST, suggérant que l'approche par diffusion/flow est intrinsèquement plus résistante.

3. Méthodologie : RobustVLA

Pour surmonter ces limites, les auteurs proposent RobustVLA, un cadre d'optimisation fine (fine-tuning) conçu pour renforcer la robustesse à la fois des entrées et des sorties du VLA, en s'appuyant sur le backbone $\pi_0$ .

A. Robustesse aux Sorties (Actions)

L'objectif est de rendre le modèle résistant au bruit dans les actions générées, qui peut dériver le robot hors de la distribution des données d'entraînement (OOD).

Approche : L'équipe formule la recherche du pire cas de bruit d'action ( $\delta$ ) comme un problème d'optimisation maximisant la perte de flow matching.
Optimisation : Ils utilisent une approche de type TRADES (Trade-off between Robustness and Accuracy). L'objectif combine la perte originale (sur les données propres) et une perte robuste contre le bruit d'action maximal trouvé via l'algorithme PGD (Projected Gradient Descent).
Interprétation : Cela équivaut à un mélange de label smoothing, de pénalisation des valeurs aberrantes (outlier penalization) et d'entraînement adversaire, forçant le modèle à apprendre des distributions d'actions plus lisses et moins confiantes de manière excessive.

B. Robustesse aux Entrées (Observations, Instructions, Environnement)

L'objectif est de garantir que des variations d'entrée qui préservent la sémantique de la tâche ne modifient pas l'action optimale.

Sélection Automatique des Perturbations (UCB) : Au lieu de tester manuellement toutes les perturbations, le problème est formulé comme un problème de bandit multi-bras. Un algorithme Upper Confidence Bound (UCB) sélectionne dynamiquement, à chaque itération d'entraînement, la perturbation d'entrée la plus nuisible (celle qui maximise la perte de flow matching).
Régularisation : Le modèle est entraîné pour produire des actions cohérentes malgré ces perturbations d'entrée sélectionnées, assurant ainsi une invariance sémantique.

C. Fonction de Perte Globale

La fonction de perte finale combine la perte de base ( $\pi_0$ ), la régularisation d'entrée et la régularisation de sortie :
$\mathcal{L}_{RobustVLA} = \mathcal{L}_{\pi_0} + \lambda_{in} \mathcal{L}_{in} + \lambda_{out} \mathcal{L}_{out}$

4. Résultats Expérimentaux

Sur le Benchmark LIBERO (Simulation)

Gain de Performance : RobustVLA améliore le taux de réussite moyen de 12,6 % sur le backbone $\pi_0$ et de 10,4 % sur OpenVLA par rapport aux bases, sur l'ensemble des 17 perturbations.
Efficacité Computationnelle : Contrairement à BYOVLA qui nécessite des appels répétés à des LLM externes pour segmenter et inpainter les images (coûteux en calcul), RobustVLA est 50,6 fois plus rapide en inférence tout en étant plus robuste.
Perturbations Mixtes : Le modèle maintient une robustesse supérieure (+10,4 %) même lorsque des perturbations sont appliquées simultanément sur l'entrée et la sortie.

Expériences Réelles (Robot FR5)

Faible Quantité de Données : Avec seulement 25 démonstrations, RobustVLA surpasse $\pi_0$ de 65,6 % en taux de réussite face à des perturbations physiques (bruit moteur, objets distrayants, variations d'éclairage, instructions vocales imparfaites).
Évolutivité : Même avec 100 démonstrations (où $\pi_0$ commence à saturer), RobustVLA maintient un avantage de 30 %, démontrant qu'il ne se contente pas d'apprendre par cœur les démonstrations mais généralise mieux aux incertitudes.

5. Contributions Clés

Évaluation Holistique : Première évaluation systématique de la robustesse des VLA sur 17 perturbations couvrant les 4 modalités (Action, Observation, Instruction, Environnement).
Cadre Unifié (RobustVLA) : Proposition d'une méthode d'entraînement robuste combinant optimisation adversaire sur les sorties (flow matching) et sélection adaptative des perturbations d'entrée via UCB.
Performance et Efficacité : Démonstration que la robustesse multi-modale peut être atteinte sans dépendre de modèles externes lourds, offrant des gains significatifs en simulation et sur des robots réels, particulièrement dans des régimes de données limités.

6. Signification et Impact

Ce travail marque un tournant dans la recherche sur les VLA en passant d'une focalisation exclusive sur la robustesse visuelle à une approche multi-modale intégrée. Il démontre que la robustesse des actions est le maillon faible critique et propose une solution algorithmique efficace pour y remédier. La capacité de RobustVLA à fonctionner avec peu de données réelles est particulièrement prometteuse pour le déploiement industriel, où la collecte de données est coûteuse et où les environnements sont imprévisibles.