LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Robot qui "écoute" mal : L'histoire du LangGap

Imaginez un robot très intelligent, capable de voir, de comprendre le langage et d'agir. C'est ce qu'on appelle un modèle VLA (Vision-Language-Action). Sur les tests classiques, ces robots sont des champions : ils réussissent plus de 95 % des tâches. On pourrait croire qu'ils sont parfaits.

Mais les chercheurs de cet article (Yuchen Hou et Lin Zhao) ont découvert un secret gênant : ces robots ne vous écoutent pas vraiment.

1. Le Problème : Le Robot est un "Tricheur Visuel"

Imaginez que vous apprenez à un enfant à ranger sa chambre.

La vraie compréhension : L'enfant entend "Range le bol sur l'étagère", il regarde le bol, puis l'étagère, et agit.
Le comportement du robot actuel : Le robot a tellement vu de vidéos où un bol finit sur une étagère qu'il a mémorisé l'image. Si vous lui dites "Range le bol sur le four", il ne change pas d'avis. Il continue de mettre le bol sur l'étagère, car c'est ce qu'il a vu des milliers de fois.

Pour lui, le texte est juste du bruit de fond. Il triche en se basant uniquement sur ce qu'il voit, sans lire vos instructions.

2. L'Expérience : Le Test de la "Même Pièce, Différentes Ordres"

Pour prouver ce problème, les chercheurs ont créé un jeu très astucieux appelé LangGap.

Imaginez une scène de cuisine figée (les mêmes objets, à la même place).

Le test classique : On demande au robot de faire une seule chose. Il réussit, mais il a peut-être juste mémorisé la scène.
Le test LangGap : On garde exactement la même cuisine, mais on change l'ordre à chaque fois :
- "Mets le bol sur la table."
- "Mets le bol sur le four."
- "Mets le bol à côté de la tasse."
- "Ouvre le tiroir."

Si le robot est intelligent, il doit changer son action selon le mot-clé. S'il est un "tricheur visuel", il fera toujours la même chose, peu importe ce que vous dites.

Le résultat est choquant :

Quand on change l'objet (ex: "bol" vs "bouteille"), le robot comprend un peu (29 % de réussite).
Mais quand on change la destination (ex: "sur la table" vs "sur le four"), le robot échoue à 100 %. Il est complètement sourd à l'endroit où il doit aller.

C'est comme si vous lui disiez "Va à Paris" et "Va à Tokyo", et qu'il marchait toujours dans la même direction parce qu'il a mémorisé le paysage de départ.

3. La Solution Tentée : L'Entraînement Intensif

Les chercheurs ont pensé : "Et si on lui donnait plus de données pour l'obliger à écouter ?"
Ils ont créé un nouvel entraînement avec des milliers d'exemples où le robot doit faire des choses différentes dans la même pièce.

Petite échelle : Si on lui apprend une seule nouvelle tâche, il devient excellent (90 % de réussite).
Grande échelle : Dès qu'on lui donne trop de tâches différentes en même temps, il s'embrouille. Son cerveau (le modèle) ne parvient pas à généraliser. Il oublie ses anciennes compétences et ne comprend toujours pas bien le langage.

4. La Conclusion : Le Robot a besoin d'une "Rééducation"

L'article nous dit deux choses importantes :

Les robots actuels sont fragiles : Ils réussissent bien les tests standards, mais c'est une illusion. Ils ne comprennent pas le sens profond de vos mots, surtout pour les lieux et les directions.
Donner plus de données ne suffit pas : Ajouter simplement plus d'exemples dans le même décor ne résout pas le problème. Il faut changer la façon dont le robot est construit (son architecture) pour qu'il soit obligé de lire, pas juste de regarder.

🎯 En résumé, avec une analogie culinaire

Imaginez un chef robotique dans une cuisine.

Aujourd'hui : Si vous lui dites "Fais une salade", il sort les ingrédients qu'il a vus dans 1000 vidéos de salades. Si vous lui dites "Fais une salade avec des fraises" (au lieu de tomates), il continue de mettre des tomates, car il a mémorisé l'image de la salade classique. Il ne lit pas votre demande spécifique.
L'objectif de LangGap : C'est de forcer ce chef à lire la carte du jour. Si la carte dit "Fraises", il doit mettre des fraises, même si c'est la première fois qu'il le fait.

Le message final : Nous avons un robot qui est très fort pour "regarder", mais très faible pour "écouter". Pour qu'il devienne un véritable assistant, nous devons lui apprendre à faire confiance à vos mots, pas seulement à ses souvenirs visuels.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language-Action (VLA) actuels, tels que $\pi0.5$ , affichent des taux de réussite supérieurs à 95 % sur des benchmarks standards comme LIBERO. Cependant, l'article démontre que cette performance repose principalement sur des raccourcis visuels (mémoire visuelle) plutôt que sur une véritable compréhension des instructions linguistiques.

Les travaux antérieurs souffrent de trois lacunes majeures :

Diagnostic insuffisant : Les perturbations linguistiques testées sont souvent superficielles (paraphrases) et ne permettent pas d'identifier quelles dimensions sémantiques échouent (ex: noms d'objets vs lieux cibles).
Benchmarks biaisés : Des benchmarks comme LIBERO associent généralement une seule tâche à une disposition visuelle donnée, permettant aux modèles de mémoriser la séquence visuelle sans comprendre le langage.
Données d'entraînement pauvres : Le manque de diversité linguistique dans les données d'entraînement conduit à un "déséquilibre de modalité", où le modèle apprend à ignorer les signaux textuels.

2. Méthodologie

L'approche proposée se divise en trois volets : un cadre de diagnostic, un nouveau benchmark et une validation par l'entraînement.

A. Cadre de Perturbation Sémantique (Diagnostic)

Les auteurs proposent une taxonomie de perturbation sémantique en quatre dimensions orthogonales, appliquée sur des dispositions visuelles identiques (même scène de départ) pour forcer le modèle à utiliser le langage :

Changement de Catégorie d'Objet : Modifier l'objet à manipuler (ex: "bol" $\to$ "ramequin").
Changement de Cible (Target) : Modifier la destination de l'action (ex: "sur l'assiette" $\to$ "sur la cuisinière").
Description Spatiale : Distinguer des instances d'un même objet par leur position relative (ex: "le bol à droite du ramequin").
Action de Tiroir : Changer le type d'action (ex: "mettre" $\to$ "ouvrir le tiroir").

Contrairement aux paraphrases, ces variations créent des tâches physiquement valides mais sémantiquement distinctes, partageant le même état visuel initial.

B. Le Benchmark LangGap

Pour combler le vide des benchmarks existants, les auteurs construisent LangGap, composé de 99 tâches (40 tâches originales LIBERO + 59 tâches étendues).

Principe clé : "Multi-tâche sur la même scène". Plusieurs instructions différentes sont appliquées à la même configuration visuelle initiale. Si un modèle ignore le langage, son taux de réussite théorique maximal est de $1/k$ (où $k$ est le nombre de tâches par scène).
Split des données : Les tâches d'entraînement et de test sont séparées au niveau des instructions, garantissant que le modèle doit généraliser à des instructions jamais vues, même si la scène visuelle est familière.

C. Protocole d'Évaluation et d'Entraînement

Modèle testé : $\pi0.5$ (fine-tuné avec LoRA).
Données : Collecte de démonstrations scriptées (environ 150 par tâche) via des contrôleurs basés sur des waypoints dans l'environnement Robosuite.
Expériences : Comparaison progressive entre l'entraînement sur des tâches étendues seules vs. l'ajout de données officielles (LIBERO) pour observer les effets de dilution.

3. Résultats Clés

A. Diagnostic des Échecs (Avant entraînement)

L'évaluation du modèle $\pi0.5$ pré-entraîné révèle des échecs différentiels sévères :

Changement de Cible (Change Target) : 0 % de réussite sur 13 tâches. Le modèle ignore totalement les descriptions de lieux cibles.
Description Spatiale : 11 % de réussite.
Changement d'Objet : 29,3 % de réussite.
Action de Tiroir : 31,7 % de réussite.
Conclusion : Le modèle ne comprend pas les objectifs spatiaux, mais conserve une certaine capacité à reconnaître les objets, probablement due à des motifs pré-entraînés.

B. Impact de l'Entraînement (Augmentation de données)

Échelle unique (Single-task) : L'entraînement sur une seule tâche étendue fait passer le taux de réussite de 3,75 % à 90 %. Cela prouve que le modèle peut apprendre, mais par mémorisation plutôt que par compréhension générale.
Effet de Dilution :
- Sur 6 tâches étendues (Spatial uniquement), le taux est de 28 %.
- En ajoutant les 40 tâches officielles (45 tâches au total), le taux chute à 4 %. Les données officielles "diluent" l'apprentissage des tâches étendues.
- Sur 16 tâches étendues (multi-suites), l'entraînement seul donne 6,2 %, mais l'ajout de données officielles (56 tâches) remonte à 27,5 % global, bien que la performance sur les tâches spatiales spécifiques reste faible (6,7 %).
Conclusion fondamentale : L'ajout de données sémantiquement variées sur la même scène visuelle ne suffit pas à créer une compréhension linguistique généralisable à grande échelle. Le modèle peine à transférer l'apprentissage à de nouvelles variations sémantiques.

4. Contributions Principales

Méthode de Diagnostic Fin : Une taxonomie à 4 dimensions qui révèle des modes d'échec spécifiques (notamment l'ignorance totale des cibles spatiales), impossible à détecter avec les métriques agrégées existantes.
Benchmark LangGap : Le premier benchmark VLA conçu pour forcer la dépendance au langage par conception (même scène, tâches multiples), offrant une évaluation à long terme au-delà de la saturation des performances.
Validation Empirique de la Limite : La démonstration que l'augmentation de données ciblée peut réduire l'écart linguistique à petite échelle, mais échoue à grande échelle en raison de la capacité d'apprentissage limitée des architectures actuelles face à la diversité sémantique.

5. Signification et Perspectives

Limitation Fondamentale : L'article met en lumière que les modèles VLA actuels, même performants, ne possèdent pas une compréhension compositionnelle robuste du langage. Ils dépendent trop fortement de la corrélation visuelle.
Implications Architecturales : Les solutions purement axées sur les données (augmentation) ont des limites. Des modifications architecturales (rééquilibrage des modalités, mécanismes dédiés aux relations spatiales) sont nécessaires en complément.
Ressource Future : LangGap sert d'outil de diagnostic critique pour évaluer la véritable capacité de généralisation linguistique des futurs modèles, au-delà des scores de réussite sur des tâches fixes.

En résumé, LangGap expose que la "réussite" des modèles VLA est souvent une illusion créée par la mémorisation visuelle, et propose un cadre rigoureux pour mesurer et tenter de combler ce fossé linguistique, tout en soulignant que le défi reste majeur pour les architectures actuelles.