Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Le papier présente Mantis, un modèle vision-langage-action novateur qui utilise une prévision visuelle désengagée pour améliorer la compréhension, le raisonnement et l'efficacité de l'apprentissage, surpassant ainsi les modèles de référence existants sur des benchmarks robotiques et dans des évaluations réelles.

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

Publié 2026-02-24
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🤖 Mantis : Le Robot qui "Rêve" avant d'Agir

Imaginez que vous apprenez à un enfant à faire du vélo.

  • Les robots actuels sont comme un enfant qui regarde seulement la roue d'avant et essaie de pédaler en suivant des instructions strictes. S'il y a un petit obstacle ou une question bizarre ("Peux-tu faire un tour si je te dis 'fais le tour de la lune' ?"), il se bloque.
  • Mantis, c'est un enfant qui, avant de pédaler, ferme les yeux et imagine ce qui va se passer dans les 10 prochaines secondes. Il se dit : "Si je tourne le guidon à gauche, le vélo va pencher, et je vais éviter ce rocher."

Ce papier présente Mantis, un nouveau modèle d'intelligence artificielle pour les robots qui combine trois choses essentielles : voir (les yeux), comprendre (le cerveau) et prédire (l'imagination).


🧩 Le Problème : Trop de bruit, pas assez de sens

Jusqu'à présent, les robots apprenaient de deux façons, et les deux avaient des défauts :

  1. La méthode "Tout voir" : On demande au robot de prédire exactement chaque pixel de l'image future (comme un film). C'est trop lourd ! Le robot passe son temps à calculer la couleur d'un mur plutôt que à décider comment saisir une tasse. C'est comme essayer de conduire une voiture en dessinant chaque feuille d'arbre sur la route.
  2. La méthode "Tout résumer" : On demande au robot de résumer l'image en quelques points clés. Mais en résumant, on perd les détails importants (comme la texture d'une poignée glissante). C'est comme essayer de cuisiner un gâteau en regardant seulement une photo floue de la recette.

De plus, beaucoup de robots oublient leur "culture générale". Ils deviennent de superbes exécutants, mais s'ils ne comprennent pas le sens des mots, ils échouent dès qu'on leur donne une instruction un peu créative.


✨ La Solution de Mantis : La "Prévoyance Visuelle Découplée"

Mantis utilise une astuce géniale appelée Prévoyance Visuelle Découplée (DVF). Voici l'analogie pour comprendre :

Imaginez un chef cuisinier (le robot) qui doit préparer un plat complexe.

  • Le Chef (le cerveau du robot) : Il doit comprendre la recette (le langage) et décider des mouvements de ses mains (les actions).
  • Le Stagiaire (la tête de prévoyance) : Au lieu de demander au Chef de dessiner le futur plat lui-même (ce qui le distrait), Mantis a un Stagiaire spécial.

Comment ça marche ?

  1. Le Chef donne une instruction au Stagiaire : "Imagine ce qui va se passer si je mets la cuillère dans la casserole."
  2. Le Stagiaire (qui est très rapide et spécialisé) génère une image mentale de ce futur.
  3. Le secret : Le Chef ne regarde pas l'image complète du futur. Il ne regarde que les changements (le mouvement de la cuillère). Ces changements sont comme des "indices cachés" (des latent actions) qui disent au Chef : "Hé, pour faire ce mouvement, tu dois bouger ta main comme ça."

En séparant le "rêve" (la prédiction de l'image) du "réflexe" (l'action réelle), le robot ne se perd plus. Il garde son cerveau libre pour comprendre le langage et raisonner, tout en ayant une boussole visuelle pour ses mouvements.


🚀 Les Trois Super-Pouvoirs de Mantis

1. L'Apprentissage Progressif (La méthode "Escalier")

Au lieu d'essayer d'apprendre à marcher, parler et cuisiner en même temps, Mantis monte un escalier :

  • Étape 1 : Il regarde des milliers de vidéos de humains (comme sur YouTube) pour apprendre comment les objets bougent dans le monde réel.
  • Étape 2 : Il regarde des vidéos de robots pour apprendre à transformer ces mouvements en commandes mécaniques.
  • Étape 3 : Il lit des livres et des conversations pour apprendre à comprendre les nuances du langage humain.
    Cela évite que le robot ne "oublie" comment parler quand il apprend à bouger.

2. Le "Rêve" qui aide à agir

Grâce à sa capacité à prédire l'avenir, Mantis est beaucoup plus rapide pour apprendre. Là où d'autres robots mettent des mois à converger (atteindre un bon niveau), Mantis y arrive en quelques jours. C'est comme si un athlète pouvait visualiser sa course parfaite avant même de partir, ce qui améliore son temps réel.

3. L'Adaptation Intelligente (ATE)

Parfois, le robot n'a pas besoin de calculer chaque mouvement avec précision (ex: marcher dans un couloir vide). Parfois, il doit être ultra-précis (ex: visser un petit boulon).
Mantis possède un mode "Adaptatif" :

  • Si la tâche est simple, il va vite et économise de l'énergie.
  • Si la tâche est délicate, il active un mode "super-précision" et vérifie plusieurs fois ses calculs.
    C'est comme un conducteur qui roule vite sur l'autoroute mais ralentit et vérifie ses rétroviseurs dans un virage serré.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Les chercheurs ont testé Mantis dans deux mondes :

  1. Le monde virtuel (Simulation) : Sur le benchmark LIBERO (un test standard pour les robots), Mantis a obtenu 96,7% de réussite. C'est un score record, battant les meilleurs modèles actuels.
  2. Le monde réel : Ils l'ont mis sur un vrai robot (une plateforme Agilex).
    • Compréhension : Si on lui demande "Mets la tasse sur le chanteur", il sait qui est Taylor Swift.
    • Logique : Si on dit "Mets l'ours sur le nombre 8" ou "Mets l'ours sur le nombre (3+5)", il fait le calcul et comprend que c'est pareil.
    • Généralisation : Même si on lui donne une instruction qu'il n'a jamais vue, il réussit souvent là où les autres robots échouent complètement.

🎯 En Résumé

Mantis, c'est un robot qui ne se contente pas de suivre des ordres aveuglément. Il imagine le futur pour mieux agir, il comprend le langage pour ne pas se tromper de contexte, et il s'adapte pour être à la fois rapide et précis.

C'est un peu comme passer d'un robot qui obéit à un script rigide à un robot qui a un instinct, une imagination et une culture générale. C'est un grand pas vers des robots qui peuvent vraiment nous aider dans notre quotidien, pas seulement dans des usines.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →