When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Each language version is independently generated for its own context, not a direct translation.

Imaginez un robot domestique très intelligent, capable de voir, de comprendre le français et de bouger ses bras. C'est ce qu'on appelle un VLA (Modèle Vision-Langage-Action). En théorie, si vous lui dites : « Prends le pot de moutarde », il devrait prendre le pot de moutarde.

Mais dans la réalité, ce robot a un gros défaut : il est têtu et prévisible.

Voici une explication simple de ce que les chercheurs ont découvert et de la solution qu'ils ont trouvée, en utilisant des analogies du quotidien.

1. Le Problème : Le Robot qui « Triche » avec ses yeux

Imaginez que vous avez un robot qui a passé des milliers d'heures à apprendre à ranger votre cuisine. Dans 99 % des cas, il a appris à prendre le pot de moutarde parce que c'est l'objet qu'on lui a montré le plus souvent pour ranger la table.

Un jour, vous lui dites : « S'il te plaît, prends le ruban adhésif » (qui est aussi sur la table).

Ce qui devrait se passer : Le robot regarde le ruban, ignore la moutarde, et prend le ruban.
Ce qui se passe vraiment : Le robot regarde la table, voit le pot de moutarde (un objet familier), et dit : « Ah, on range la table ! Je vais prendre la moutarde ! » Il ignore votre ordre verbal.

C'est ce que les chercheurs appellent un « raccourci visuel » (vision shortcut). Le robot a trop confiance en ce qu'il voit et pas assez en ce qu'il entend. Il préfère suivre ses habitudes (« Je sais faire ça ! ») plutôt que d'écouter votre instruction nouvelle. C'est comme un élève qui, au lieu de lire la question de l'examen, répond automatiquement à la question qu'il a vue 100 fois la semaine dernière.

2. La Découverte : Le Test « LIBERO-CF »

Pour prouver que ce problème est réel, les chercheurs ont créé un test spécial appelé LIBERO-CF.

Imaginez un jeu de cartes où l'on change subtilement les règles :

On garde la même table (le même décor).
Mais on change l'objet qu'on demande au robot de prendre (par exemple, prendre un objet qui était juste un décor auparavant).
On demande aussi des tâches complexes ou avec des objets qu'il n'a jamais vus.

Le verdict ? La plupart des robots intelligents actuels échouent lamentablement. Ils continuent de prendre l'objet « habituel » même quand on leur dit explicitement de faire autre chose. Ils sont aveugles à la nuance de votre voix.

3. La Solution : Le « Guide de Contre-Action » (CAG)

Comment réparer ce robot têtu sans le rééduquer de zéro ? Les chercheurs ont inventé une astuce intelligente appelée CAG (Counterfactual Action Guidance).

Voici l'analogie parfaite : Le Chef et le Critique.

Imaginez que le robot est un chef cuisinier (le modèle VLA).

Le Chef regarde la table et dit : « Je vais prendre la moutarde, c'est ce qu'on fait toujours ici. »
Le Critique (le nouveau module CAG) est un assistant qui ne regarde que la table, sans écouter les ordres. Il dit : « Si personne ne parlait, je prendrais la moutarde par habitude. »

Le CAG fonctionne comme un arbitre entre les deux :

Il écoute le Chef (qui suit votre ordre : « Prends le ruban »).
Il écoute le Critique (qui suit l'habitude : « Prends la moutarde »).
Il calcule la différence : « Le Chef veut le ruban, le Critique veut la moutarde. La différence, c'est le vrai désir du client ! »

En combinant ces deux avis, le robot est forcé de se concentrer sur la différence entre ce qu'il pense devoir faire (l'habitude) et ce qu'on lui demande de faire (l'instruction). Cela l'oblige à écouter votre voix plutôt que de suivre ses vieux réflexes.

4. Les Résultats : Un Robot plus Écouteur

Grâce à cette astuce simple (qui ne nécessite pas de réapprendre tout le cerveau du robot) :

Le robot écoute enfin les instructions « contre-intuitives ».
Il réussit beaucoup mieux à prendre le bon objet, même s'il est nouveau ou étrange.
Il ne perd pas ses compétences habituelles : il reste aussi bon pour les tâches qu'il connaît déjà.

En Résumé

Ce papier nous dit que nos robots actuels sont comme des étudiants qui apprennent par cœur : ils excellent quand on leur pose les mêmes questions, mais ils échouent dès qu'on change un mot.

Les chercheurs ont créé un test pour révéler ce défaut et une méthode simple (le CAG) qui agit comme un coach mental. Ce coach aide le robot à se dire : « Attends, je ne suis pas obligé de faire ce que j'ai l'habitude de faire. Je dois écouter ce qu'on me dit maintenant. »

C'est une étape cruciale pour rendre les robots domestiques vraiment fiables et capables de comprendre nos nuances, et non pas juste de répéter ce qu'ils ont vu des milliers de fois.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Échec Contrefactuel et les Raccourcis Visuels

Les modèles Vision-Language-Action (VLA) promettent de lier les instructions linguistiques au contrôle robotique. Cependant, les auteurs identifient un mode de défaillance critique et sous-étudié : l'échec contrefactuel.

Le Phénomène : Lorsque confrontés à des instructions qui contredisent les tâches apprises lors de l'entraînement (mais qui sont visuellement plausibles), les VLA ignorent souvent l'instruction linguistique. Au lieu de suivre l'intention de l'utilisateur, ils exécutent des comportements "bien appris" spécifiques à la scène, basés sur des raccourcis visuels (visual shortcuts).
La Cause Racine : Ce problème provient d'un déséquilibre de modalité dans les données d'entraînement robotiques. Les démonstrations sont souvent collectées pour un sous-ensemble restreint de tâches dans une scène fixe. Par conséquent, les modèles apprennent à associer fortement une observation visuelle ( $o$ ) à une action spécifique ( $a$ ), marginalisant l'influence de l'instruction linguistique ( $l$ ).
Conséquence Mathématique : Dans une approche bayésienne idéale, la distribution d'action est $P(a|o, l) \propto P(a|o) \cdot P(l|a, o)$ . En pratique, les VLA souffrent d'un effondrement du posterior vers l'a priori visuel : $P(a|o, l) \approx P(a|o)$ . Le langage devient un signal de conditionnement secondaire, voire négligeable.

2. Méthodologie : LIBERO-CF et CAG

Pour étudier et résoudre ce problème, les auteurs proposent deux contributions principales : un nouveau benchmark et une nouvelle méthode d'inférence.

A. Le Benchmark LIBERO-CF

Les auteurs introduisent LIBERO-CF, le premier benchmark contrefactuel conçu spécifiquement pour évaluer la capacité des VLA à suivre le langage.

Conception : Il s'appuie sur le benchmark LIBERO existant mais attribue des instructions alternatives et réalisables sous les mêmes dispositions visuelles.
Catégories de tâches :
- CF-Spatial : Cibler des objets qui servaient auparavant de décor (arrière-plan).
- CF-Object : Changer l'objet cible vers un objet différent.
- CF-Long : Instructions à long horizon avec de nouvelles cibles.
- CF-OOD : Généralisation à des objets hors distribution (jamais vus lors du fine-tuning).
Métriques :
- Taux d'ancrage (Grounding) : Le robot touche-t-il l'objet spécifié ? (Mesure de la fidélité au langage).
- Taux de réussite (Success) : La tâche est-elle accomplie ?
- Biais : Distinction entre les exécutions "Fidèles" (suivant l'instruction) et "Biaisées" (suivant la tâche d'entraînement par défaut).

B. La Méthode : Counterfactual Action Guidance (CAG)

Pour atténuer ces échecs sans modifier l'architecture du modèle ni réentraîner les poids pré-entraînés, les auteurs proposent CAG, un schéma d'inférence à double branche.

Principe : Inspiré de la Classifier-Free Guidance (CFG) utilisée en génération, CAG combine deux politiques lors de l'inférence :
1. Une politique conditionnée par le langage : $\pi_{cond}(a|o, l)$ .
2. Une politique non conditionnée (visuelle uniquement) : $\pi_{uncond}(a|o, \emptyset)$ .
Formule : La politique finale est une combinaison linéaire :
$\pi_{CAG}(a|o, l) = \pi_{uncond}(a|o, \emptyset) + \omega \cdot (\pi_{cond}(a|o, l) - \pi_{uncond}(a|o, \emptyset))$
Où $\omega$ est une échelle de guidage.
Interprétation : Cela permet de "re-peser" la distribution d'action a posteriori, en augmentant la vraisemblance de l'instruction linguistique tout en préservant l'a priori d'exécution visuel.
Deux stratégies d'implémentation :
1. Sans entraînement (TF) : Utiliser le même modèle VLA en supprimant l'entrée linguistique pour approximer la branche non conditionnée.
2. Avec Prior Visuel-Action (VA) : Entraîner un modèle séparé (VA) uniquement sur les données visuelles pour obtenir un a priori visuel plus pur et plus stable.

3. Résultats Expérimentaux

Les expériences ont été menées sur des simulations (LIBERO-CF) et dans le monde réel (avec un bras robotique Franka Research 3).

Résultats en Simulation

Échec des modèles de base : Les modèles VLA de l'état de l'art (OpenVLA-OFT, $\pi_0$ , $\pi_{0.5}$ ) montrent des échecs contrefactuels sévères. Par exemple, sur $\pi_{0.5}$ , le taux d'ancrage sur les tâches contrefactuelles est de seulement 30,8 %, tandis qu'il reste élevé (>65 %) sur les tâches d'entraînement biaisées.
Efficacité de CAG :
- L'ajout de CAG améliore significativement la fidélité au langage. Sur $\pi_{0.5}$ , le taux d'ancrage moyen passe de 30,8 % à 46,3 % (avec la stratégie VA).
- Le taux de réussite global sur les tâches sous-observées augmente de 13,2 % à 21,7 %.
- CAG réduit drastiquement les exécutions biaisées (ex: réduction de 24,7 % des succès biaisés sur $\pi_{0.5}$ ).
- La stratégie VA (modèle séparé) surpasse généralement la stratégie TF, prouvant qu'un a priori visuel explicite est plus efficace pour corriger les raccourcis.

Résultats dans le Monde Réel

Scénarios testés : Reconnaissance d'objets, raisonnement spatial, ciblage d'objectifs, généralisation OOD et raisonnement à long horizon.
Performance : CAG réduit les échecs contrefactuels de 9,4 % en moyenne et améliore le taux de réussite des tâches de 17,2 %.
Cas concrets :
- Spatial : Le robot choisit souvent le mauvais objet (ex: "gauche" vs "droite") sans CAG. CAG corrige cela.
- Long Horizon : Dans des tâches multi-étapes (ex: "Verser du Sprite" au lieu du Coke habituel), le modèle de base retombe sur la tâche d'entraînement. CAG maintient l'ancrage linguistique tout au long de l'exécution.
- Généralisation OOD : CAG permet au robot de mieux manipuler des objets jamais vus (ex: Cube, Ballon de basket) en suivant l'instruction plutôt que de se fier à des motifs visuels appris.

4. Contributions Clés

LIBERO-CF : Introduction du premier benchmark systématique pour évaluer les échecs contrefactuels et la capacité de suivi du langage des VLA.
CAG (Counterfactual Action Guidance) : Proposition d'une méthode d'inférence universelle, "plug-and-play", qui améliore l'ancrage linguistique sans nécessiter de modifications architecturales ou de réentraînement des modèles pré-entraînés.
Analyse Empirique : Démonstration que les échecs contrefactuels sont omniprésents, même dans les modèles les plus avancés, et qu'ils sont exacerbés par la présence d'objets de tâche d'entraînement dans la scène.

5. Signification et Impact

Ce travail met en lumière une limitation fondamentale des VLA actuels : leur dépendance excessive aux indices visuels au détriment de la compréhension linguistique, ce qui compromet leur fiabilité en tant qu'agents robotiques généraux.

La méthode CAG offre une solution pratique et immédiate pour l'industrie et la recherche. Elle permet de débloquer le potentiel de généralisation des modèles VLA pré-entraînés, rendant les robots plus sûrs et plus capables de suivre des instructions complexes et imprévues dans des environnements réels, sans coût computationnel ou de données supplémentaire majeur. Cela ouvre la voie à des agents robotiques plus robustes capables de véritablement "écouter" l'utilisateur plutôt que de simplement "voir" la scène.