Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un robot domestique très intelligent, capable de voir, de comprendre le langage et d'agir dans le monde réel. C'est ce qu'on appelle un modèle VLA (Vision-Language-Action). En théorie, il devrait pouvoir faire tout ce que vous lui demandez, comme "pousser la canette de Coca".

Mais voici le problème : ces robots sont un peu comme des enfants très littéraux. Si vous dites "pousse la canette", il le fait. Mais si vous dites "exercez délicatement une force sur le récipient en aluminium", il peut paniquer, ne pas comprendre, et ne rien faire du tout. C'est ce que les chercheurs appellent une "vulnérabilité" : le robot échoue simplement parce que vous avez utilisé des mots différents.

Voici comment les auteurs de cette paper ont résolu le problème avec une méthode appelée Q-DIG.

1. Le concept : Le "Red-Teaming" (L'entraînement par l'adversaire)

Imaginez que vous préparez un athlète pour les Jeux Olympiques. Pour qu'il soit invincible, vous ne le faites pas seulement courir sur une piste parfaite. Vous le faites courir sous la pluie, sur du sable, avec des chaussures trop grandes, et vous lui donnez des instructions bizarres pour voir où il trébuche.

C'est exactement ce que fait Q-DIG. C'est un système qui joue au "méchant" (le Red Team) contre le robot. Son but n'est pas de détruire le robot, mais de trouver toutes les façons bizarres de lui donner un ordre pour le faire échouer, afin de l'entraîner à ne plus jamais échouer.

2. La méthode : La "Diversité de Qualité" (Q-DIG)

Le défi, c'est que si le robot apprend juste à répondre à une seule phrase bizarre, il ne sera pas prêt pour les autres. Il faut une grande variété d'erreurs.

C'est là que l'astuce de Q-DIG intervient. Ils utilisent une technique appelée Optimisation de la Diversité de Qualité.

L'analogie du jardinier : Imaginez que vous voulez remplir un jardin de fleurs. Vous ne voulez pas 100 roses identiques. Vous voulez des tulipes, des marguerites, des lys, etc., mais toutes doivent être de haute qualité (très belles).
L'application au robot : Q-DIG crée des catégories d'erreurs (appelées "styles d'attaque"). Par exemple :
- Le style "Slang" : "Hé mec, pousse cette canette !"
- Le style "Technique" : "Exercez une force vectorielle sur le cylindre métallique."
- Le style "Trop détaillé" : "Prenez la canette rouge et blanche qui est posée à plat et poussez-la doucement."

Le système génère des milliers de phrases pour chaque catégorie, teste le robot, et garde uniquement celles qui le font échouer de manière intéressante. Il remplit ainsi un "catalogue" (une archive) de toutes les façons de piéger le robot.

3. L'entraînement final : Apprendre de ses erreurs

Une fois que Q-DIG a trouvé toutes ces phrases pièges, il ne les jette pas. Il les utilise pour réentraîner le robot.

L'analogie du professeur : C'est comme si un professeur donnait à un élève un examen blanc avec des questions pièges. L'élève fait des fautes, le professeur lui explique pourquoi, et l'élève réétudie. La prochaine fois, même si le professeur pose la question d'une manière totalement différente, l'élève sait répondre.

En ajoutant ces phrases "bizarres" à la liste d'entraînement du robot, celui-ci apprend que "pousser la canette", "exercer une force sur le récipient" et "hé mec, pousse ça" signifient tous la même chose.

4. Les résultats : Plus robuste et plus humain

Les chercheurs ont testé cela dans des simulations et même avec de vrais robots physiques.

Plus de variété : Q-DIG trouve beaucoup plus de types d'erreurs que les méthodes précédentes.
Plus naturel : Les phrases générées par Q-DIG ressemblent davantage à ce qu'un humain dirait vraiment (même si c'est pour piéger le robot), contrairement à d'autres méthodes qui produisaient des phrases robotiques et étranges.
Meilleure performance : Après cet entraînement "anti-piège", le robot réussit beaucoup mieux ses tâches, même quand on lui donne des instructions qu'il n'a jamais vues auparavant.

En résumé

Q-DIG est comme un entraîneur personnel très strict qui force le robot à s'entraîner dans des conditions difficiles et avec des instructions variées. Au lieu de simplement lui dire "fais ça", il lui dit "fais ça, mais dis-le moi comme si tu étais un pirate, ou un ingénieur, ou un enfant". Résultat ? Le robot devient un vrai professionnel, capable de comprendre n'importe qui, n'importe quand, et de ne pas se tromper quand on change un mot dans la phrase.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language-Action (VLA) représentent une avancée majeure pour les systèmes robotiques généralistes, permettant de transformer des entrées visuelles et linguistiques en actions physiques. Cependant, ces modèles souffrent d'une fragilité significative face aux variations de formulation des instructions linguistiques.

Sensibilité au wording : Un robot peut réussir une tâche avec l'instruction "pousser la canette de Coca" mais échouer complètement si l'instruction est reformulée de manière plus complexe ou technique, comme "exercer méticuleusement une force sur le récipient en aluminium".
Vulnérabilité aux attaques : Cette sensibilité rend les robots vulnérables aux attaques par "red-teaming" (tests d'intrusion) ou "jailbreaking", où des instructions adverses peuvent provoquer des défaillances imprévues, limitant leur déploiement dans des applications critiques.
Limites des méthodes existantes : Les approches précédentes, comme le Embodied Red Teaming (ERT), génèrent des instructions adverses mais manquent de contrôle sur la diversité des modes d'échec et produisent souvent des instructions irréalistes ou hors de la distribution des requêtes humaines.

L'objectif de l'article est de développer un cadre systématique pour identifier ces vulnérabilités et améliorer la robustesse des VLA en les entraînant sur un ensemble diversifié d'instructions adverses réalistes.

2. Méthodologie : Le cadre Q-DIG

Les auteurs proposent Q-DIG (Quality Diversity for Diverse Instruction Generation), un cadre innovant qui combine l'optimisation de Diversité de Qualité (QD) avec des modèles de langage-vision (VLM) pour générer des instructions adverses.

A. Formulation du problème en QD

Le problème est formulé comme une recherche d'optimisation où l'on cherche à maximiser deux critères simultanément :

Qualité (J) : La variance du taux d'échec du VLA de base sur une tâche donnée. L'objectif n'est pas de trouver l'instruction qui échoue à 100 % (trop facile et irréaliste), mais celle qui se situe à la frontière des capacités linguistiques du modèle, créant une incertitude maximale (variance élevée).
Diversité : La couverture d'un espace de "styles d'attaque" prédéfinis (ex: jargon technique, ton humain, utilisation d'adverbes, etc.).

B. Le Pipeline Q-DIG

Le processus itératif se déroule en quatre étapes :

Sélection d'instruction : Le système sélectionne une instruction existante dans un "archive" (une base de données de solutions) qui sert de point de départ ("stepping stone").
Mutation (Génération) : Un VLM agit comme "mutateur". En utilisant l'apprentissage en contexte (in-context learning) avec l'instruction originale, l'observation visuelle de la tâche et un style d'attaque cible, il génère de nouvelles instructions candidates.
Évaluation :
- Les instructions candidates sont testées sur le VLA de base dans un simulateur pour calculer la variance de l'échec.
- Un juge LLM classe l'instruction selon son style d'attaque (ex: "style colloquial", "vocabulaire rare").
Mise à jour de l'Archive : Une instruction est ajoutée à l'archive si elle remplit l'une des deux conditions :
- Elle couvre un style d'attaque non encore représenté (augmentation de la diversité).
- Elle présente une variance d'échec supérieure à celle de l'instruction précédente pour le même style (amélioration de la qualité).

C. Affinement (Fine-Tuning)

Une fois l'archive remplie d'instructions adverses diversifiées, le dataset d'entraînement du VLA est augmenté. Les démonstrations d'experts originales sont associées à ces nouvelles instructions adverses. Le VLA est ensuite ré-entraîné (fine-tuning) sur ce dataset enrichi pour apprendre à généraliser au-delà des formulations spécifiques.

3. Contributions Clés

Cadre Q-DIG : Introduction d'une méthode utilisant l'optimisation QD pour générer des instructions adverses qui sont à la fois diverses, réalistes (dans la distribution humaine) et visuellement ancrées.
Évaluation Comparative : Démonstration que Q-DIG produit des instructions plus diversifiées et plus pertinentes que les méthodes de base (Rephrase et ERT) sur des environnements de simulation standards (SimplerEnv et LIBERO).
Validation Humaine : Résultats d'une étude utilisateur montrant que les instructions générées par Q-DIG sont jugées plus naturelles et humaines que celles des méthodes concurrentes.
Amélioration de la Robustesse : Preuve que le fine-tuning avec ces données augmentées améliore significativement les taux de réussite des robots face à des instructions jamais vues.
Transfert Sim-to-Réal : Validation que les bénéfices de l'entraînement sur des données adverses simulées se transfèrent efficacement à des robots physiques réels.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs modèles VLA (OpenVLA-OFT, $\pi0.5$ , GR00T N1.6) et deux environnements de simulation.

Diversité des Prompts : Q-DIG obtient les scores les plus élevés en termes de diversité BERT et de couverture des styles d'attaque (91-97% de couverture vs ~32-38% pour les baselines). Les instructions sont plus éloignées sémantiquement de l'original tout en restant pertinentes pour la tâche.
Qualité Humaine : Dans une étude avec 40 participants, les instructions de Q-DIG ont été classées comme les plus humaines (rang moyen de 1,67 contre 2,24 pour ERT).
Performance après Fine-Tuning :
- Les modèles VLA fine-tunés avec Q-DIG montrent une amélioration de 5 à 25% des taux de réussite sur des instructions adverses non vues par rapport aux modèles de base.
- Q-DIG surpasse systématiquement les méthodes "Rephrase" et "ERT" dans la généralisation à de nouveaux prompts, confirmant que la diversité ciblée des modes d'échec est cruciale.
Expériences Réelles : Sur un bras robotique Gen-2 Kinova, l'entraînement avec des instructions Q-DIG générées en simulation a permis d'améliorer la robustesse du robot face à des instructions adverses inattendues dans le monde réel, validant l'hypothèse de transfert.

5. Signification et Conclusion

Ce travail établit que la robustesse des robots VLA ne dépend pas seulement de la quantité de données, mais de la diversité stratégique des instructions d'entraînement.

Impact Sécurité : En identifiant systématiquement les vulnérabilités linguistiques avant le déploiement, Q-DIG permet de sécuriser les robots contre des échecs critiques causés par des malentendus ou des manipulations d'instructions.
Approche Scalable : L'utilisation de l'optimisation QD permet d'explorer efficacement l'espace des instructions sans générer de bruit inutile, offrant une voie prometteuse pour le développement de robots généralistes capables de comprendre le langage humain dans toute sa complexité.
Limites : La méthode repose sur des simulations coûteuses en calcul pour l'évaluation (rollouts multiples), limitant le nombre d'itérations. Les auteurs suggèrent l'utilisation de modèles de substitution (surrogate modeling) pour rendre le processus plus évolutif à l'avenir.

En résumé, Q-DIG représente une avancée significative vers des systèmes robotiques plus résilients, capables de fonctionner de manière fiable face à la variabilité inhérente du langage humain naturel.