ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Ce papier présente ReViP, un cadre novateur pour les modèles Vision-Language-Action qui atténue les complétions fausses en rééquilibrant l'attention entre la vision et la proprioception grâce à des indices visuels conscients du progrès, tout en introduisant une nouvelle suite de benchmarks pour évaluer ce phénomène.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Problème : Le Robot "Têtu" qui ne voit pas la réalité

Imaginez que vous apprenez à un robot à faire du café. Vous lui donnez une instruction : "Prends la tasse, verse le café, et pose-la sur la table."

Le robot commence l'action. Il saisit la tasse (c'est ce qu'il sent avec ses capteurs internes, comme si vous fermiez les yeux et sentiez que vous tenez quelque chose). Mais soudain, la tasse glisse de sa pince et tombe par terre !

  • Ce que ferait un humain : Il verrait la tasse tomber, s'arrêterait, la ramasserait et recommencerait.
  • Ce que fait le robot actuel (les modèles VLA) : Il est tellement concentré sur ce qu'il ressent ("J'ai serré la tasse, donc je suis en train de la porter") qu'il ignore ce qu'il voit ("La tasse est par terre !"). Il continue son mouvement vers la table, vide, et déclare : "Mission accomplie !".

C'est ce que les auteurs appellent la "Fausse Complétion" (False Completion). Le robot est comme un conducteur qui regarde son GPS (sa mémoire interne) au lieu de regarder la route, et qui continue de rouler même s'il y a un mur devant lui.

🔍 La Cause : Un Déséquilibre Sensoriel

Les chercheurs ont découvert que ces robots sont déséquilibrés. Ils font trop confiance à leur proprioception (leur sens interne de la position des bras et des doigts) et pas assez à leur vision (leurs yeux).

C'est comme si vous essayiez de cuisiner en vous bouchant les yeux, en comptant uniquement sur le nombre de mouvements que vous avez faits avec vos mains, sans jamais vérifier si vous avez bien mis les ingrédients dans la casserole.

💡 La Solution : ReViP (Le "Regard Intelligent")

Pour régler ce problème, l'équipe a créé ReViP. Imaginez que ReViP est un chef d'orchestre ou un assistant très attentif qui travaille avec le robot.

Voici comment ça marche, étape par étape :

  1. L'Observateur (Le Gardien des Yeux) :
    Avant que le robot ne bouge, un "cerveau" spécial (un modèle de vision avancé) regarde la scène en temps réel. Il ne se contente pas de regarder, il raisonne.

    • Exemple : Il voit la tasse par terre et se dit : "Attends, la tasse n'est pas dans la pince ! Le plan initial est cassé. Il faut changer de stratégie."
      Il crée une "note mentale" visuelle : "La tasse est tombée, il faut la ramasser."
  2. L'Amplificateur (Le Rééquilibrage) :
    Normalement, le robot écoute trop son "sentiment interne" (la proprioception). ReViP prend cette "note mentale" de l'Observateur et l'injecte directement dans le cerveau du robot.
    C'est comme si vous criiez au robot : "Oublie ce que tu penses sentir ! Regarde ce que tu vois ! La tasse est là-bas !"
    Cela force le robot à rééquilibrer ses sens : il écoute enfin ses yeux autant que ses muscles.

  3. L'Action :
    Grâce à ce nouveau message, le robot annule son mouvement vers la table, tourne, va chercher la tasse tombée, et recommence correctement.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette idée dans des simulations et avec de vrais robots. Ils ont créé des situations pièges (faire tomber des objets, changer la place des choses, mettre des objets trompeurs).

  • Sans ReViP : Le robot tombe dans le piège, continue son mouvement inutile et déclare la tâche finie (Fausse Complétion).
  • Avec ReViP : Le robot détecte le problème, s'adapte, et réussit sa tâche.

En résumé :
ReViP apprend au robot à ne pas être têtu. Il lui donne un "deuxième avis" visuel intelligent qui le force à vérifier la réalité avant de dire "C'est fini". C'est comme passer d'un robot qui marche les yeux fermés en suivant un script, à un robot qui regarde vraiment ce qui se passe autour de lui pour réussir sa mission.

C'est une avancée majeure pour rendre les robots plus sûrs et plus fiables dans nos maisons et nos usines, car ils ne se contenteront plus de "faire semblant" d'avoir réussi quand ils ont échoué.