Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

El paper presenta Mantis, un modelo de visión-idioma-acción innovador que utiliza una previsión visual desacoplada mediante consultas meta y un cabezal DiT para mejorar la comprensión, el razonamiento y la eficiencia en tareas de manipulación robótica, logrando un rendimiento superior en benchmarks como LIBERO y evaluaciones del mundo real.

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

Publicado 2026-02-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñarle a un robot a hacer tareas domésticas, como poner un vaso en una mesa o recoger juguetes. El problema es que los robots son como estudiantes muy inteligentes pero con una memoria muy corta: si solo les dices "mueve la mano", a veces se pierden o no entienden el contexto.

El artículo que me has pasado presenta a Mantis, un nuevo "cerebro" para robots que es como un maestro de cocina con un sexto sentido. Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: El Robot que se ahoga en información

Antes, los robots intentaban aprender dos cosas a la vez:

  1. Entender el mundo: "¿Qué es esto? ¿Es un gato o un perro?" (Lenguaje y visión).
  2. Moverse: "¿Qué movimiento debo hacer ahora?" (Acción).

El problema era que, al intentar predecir el futuro visual (imaginar cómo se verá la mesa en 5 segundos) y al mismo tiempo decidir el movimiento, el cerebro del robot se saturaba. Era como intentar cocinar un banquete completo mientras resuelves un crucigrama; al final, o la comida sale mal o el crucigrama queda incompleto.

2. La Solución: Mantis y su "Bola de Cristal Desconectada"

Aquí entra Mantis. Su gran innovación se llama Previsión Visual Desentrelazada (Disentangled Visual Foresight).

Imagina a Mantis como un director de cine:

  • El Director (El Cerebro Principal): Se encarga de entender las instrucciones del humano ("Pon la taza en la mesa") y de mantener la lógica. No se ensucia las manos con los detalles técnicos de cada fotograma.
  • La Bola de Cristal (La "Bola de Cristal Desconectada"): Es una herramienta separada que solo se encarga de predecir el futuro. Le dice al director: "Oye, si mueves la mano así, la taza caerá aquí".

La analogía clave: En lugar de que el director tenga que imaginar cada fotograma de la película él mismo (lo cual le quita tiempo para dirigir), tiene a un asistente (la bola de cristal) que le dice: "Si haces esto, pasará aquello". El director usa esa información para tomar la decisión final de mover la mano, pero no gasta energía imaginando la película entera.

3. ¿Cómo aprende? (La Receta de Entrenamiento)

Mantis no aprende todo de golpe. Sigue una receta de tres pasos, como un estudiante que va de la escuela primaria a la universidad:

  1. Etapa 1 (Mirar videos de humanos): Mira 220,000 videos de gente haciendo cosas (como cocinar o limpiar). Aprende a predecir qué pasará después sin saber aún cómo moverse. Es como ver una película de acción y adivinar el final.
  2. Etapa 2 (Ver robots reales): Ahora ve videos de robots reales moviéndose. Conecta lo que "imaginó" en la etapa 1 con los movimientos reales.
  3. Etapa 3 (Aprender a hablar): Finalmente, le enseñan a entender el lenguaje humano y a razonar. Aquí es donde Mantis brilla: como no se cansó intentando predecir cada píxel de la imagen, le sobra energía para entender chistes, lógica o instrucciones complejas como "Pon el vaso sobre el personaje de Marvel".

4. El Truco de Eficiencia: "El Ensamble Adaptativo"

A veces, los robots necesitan ser muy precisos (como agarrar un huevo) y a veces pueden ser más rápidos (como caminar por la habitación).
Mantis tiene un modo inteligente llamado ATE.

  • Analogía: Imagina que conduces un coche. Si vas por una carretera recta, no necesitas mirar el espejo retrovisor cada segundo. Pero si vas a estacionar en un sitio estrecho, miras constantemente.
  • Mantis hace lo mismo: si la tarea es fácil, hace menos cálculos (ahorra batería y tiempo). Si la tarea es difícil y requiere precisión, hace más cálculos para asegurar que no se caiga nada. Esto lo hace un 50% más rápido que otros modelos sin perder precisión.

5. Los Resultados: ¿Funciona de verdad?

  • En simulación: En pruebas de videojuegos (donde los robots practican), Mantis logró un 96.7% de éxito, superando a todos los demás modelos. Es como si fuera el mejor jugador de ajedrez del mundo.
  • En la vida real: Cuando lo probaron con un robot físico, entendió instrucciones que otros no podían.
    • Ejemplo: Si le decías "Pon la taza sobre el cantante femenino", un robot normal se quedaba bloqueado. Mantis pensó: "Ah, cantante femenino = Taylor Swift" y lo hizo.
    • Ejemplo: Si le decías "Pon el oso sobre el número (3+5)", Mantis hizo la suma mentalmente (8) y puso el oso en el 8.

En resumen

Mantis es un robot que ha aprendido a separar sus tareas: tiene un asistente que imagina el futuro visualmente, lo que le deja al cerebro principal libre para entender el lenguaje, razonar y seguir instrucciones complejas. Además, es inteligente para ahorrar energía, haciendo más cálculos solo cuando es realmente necesario.

Es como pasar de tener un robot que solo obedece órdenes simples a tener un ayudante doméstico que entiende el contexto, razona y sabe qué va a pasar antes de que ocurra.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →