Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

O artigo apresenta o Mantis, um modelo de Visão-Linguagem-Ação inovador que utiliza uma Previsão Visual Desacoplada (DVF) para separar a previsão de estados visuais do backbone, permitindo assim uma melhor compreensão e raciocínio linguístico enquanto alcança desempenho superior em benchmarks de robótica e no mundo real.

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

Publicado 2026-02-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a fazer tarefas domésticas, como arrumar a mesa ou pegar um copo d'água. O grande desafio é: como fazer o robô não apenas "ver" o que está acontecendo, mas também "pensar" no que vai acontecer a seguir e entender o que você está pedindo?

O artigo "Mantis" apresenta uma nova inteligência artificial que resolve esse problema de uma forma muito inteligente. Vamos usar uma analogia simples para entender como funciona.

1. O Problema: O Robô "Cego" e o "Cérebro" Sobrecarregado

Antes do Mantis, os robôs tinham dois problemas principais:

  • O Dilema do Futuro: Para agir bem, o robô precisa prever o futuro (ex: "se eu mover a mão assim, o copo vai cair"). Mas tentar prever cada detalhe da imagem futura (cores, sombras, texturas) deixa o robô confuso e lento, como tentar dirigir olhando para o espelho retrovisor em vez da estrada.
  • A Perda de Memória: Quando focamos demais em prever o movimento, o robô esquece de entender a linguagem. Ele pode saber mover o braço, mas não entende se você pediu "pegue a caneca vermelha" ou "pegue a caneca azul". Ele perde a capacidade de raciocínio.

2. A Solução: O Mantis e o "Oráculo Desacoplado"

O Mantis introduz uma ideia chamada Previsão Visual Desacoplada.

Imagine que o robô é um maestro (o cérebro principal) e ele tem um oráculo mágico (o Mantis) ao seu lado.

  • O Maestro (Backbone): É o especialista em entender o que você diz e o que ele vê. Ele é o "cérebro" que sabe quem é o Iron Man ou que 3 menos 1 é 2.
  • O Oráculo (Cabeça de Previsão): É um especialista em prever o futuro visual, mas ele é "desacoplado". Isso significa que ele não atrapalha o maestro.

Como funciona a mágica?
Em vez de o maestro tentar prever a próxima imagem inteira (o que é difícil e cansativo), ele usa o Oráculo para fazer isso. O Oráculo olha para a cena atual e diz: "Ei, se você mover o braço para a direita, a próxima imagem vai ter o copo ali".

O ponto genial é que o Oráculo não precisa desenhar a imagem inteira. Ele apenas identifica os movimentos ocultos (ações latentes). É como se o Oráculo dissesse ao maestro: "Não se preocupe com a cor do fundo, foque apenas no fato de que o copo vai se mover 5 centímetros para a esquerda".

Isso libera o "cérebro" do robô para continuar sendo inteligente, entendendo linguagem e raciocinando, enquanto o Oráculo cuida da parte técnica de prever o movimento.

3. O Treinamento: Aprendendo em Etapas

Para não confundir o robô, os criadores do Mantis usaram um método de ensino em três etapas, como se fosse uma escola:

  1. Escola de Observação: Primeiro, o robô assiste a milhares de vídeos de humanos fazendo coisas (sem robôs). Ele aprende a prever o que acontece depois de um movimento, apenas observando.
  2. Escola de Prática: Depois, ele vê vídeos de robôs reais fazendo as tarefas. Agora ele conecta a previsão visual com os movimentos reais do robô.
  3. Escola de Língua: Por fim, ele aprende a conversar. Aqui, ele é treinado com textos e imagens para garantir que ele entenda comandos complexos como "pegue o objeto que mata a sede" (em vez de apenas "pegue a garrafa").

4. A Inovação de Eficiência: O "Ensemble Adaptativo"

Durante a execução, o robô precisa ser estável. O Mantis usa uma técnica chamada Ensemble Temporal Adaptativo (ATE).

Pense nisso como um piloto automático inteligente:

  • Se o robô está apenas movendo o braço no ar (sem pegar nada), o sistema é rápido e faz menos verificações para economizar energia e tempo.
  • Mas, se o robô está segurando uma xícara de café cheia e precisa colocá-la na mesa, o sistema percebe que é uma tarefa delicada. Ele então aumenta a "atenção", fazendo mais verificações rápidas para garantir que o movimento seja suave e não derrube o café.

É como um motorista que dirige rápido na estrada reta, mas reduz a velocidade e aumenta a atenção ao fazer uma curva fechada ou estacionar.

5. Os Resultados: O Robô que Entende e Faz

Os testes mostraram que o Mantis é incrível:

  • No Simulador: Ele acertou 96,7% das tarefas em um teste difícil (LIBERO), superando todos os outros robôs de ponta.
  • No Mundo Real: Quando testado em um robô físico, ele entendeu comandos que exigiam conhecimento do mundo (ex: "coloque a xícara em cima do cantor Taylor Swift") e lógica (ex: "coloque o urso no número 8, que é 3 mais 5").
  • Comparação: Ele foi muito melhor que o modelo anterior mais famoso (chamado π0.5\pi0.5), especialmente em entender instruções novas e difíceis.

Resumo Final

O Mantis é como dar a um robô um assistente pessoal que cuida da previsão do futuro visual, permitindo que o robô principal foque no que ele faz de melhor: entender o que você diz e raciocinar.

Ao separar a tarefa de "prever o futuro" da tarefa de "entender a linguagem", eles criaram um robô que não só se move com precisão, mas também pensa como um humano, entendendo contextos, piadas e instruções complexas, tudo isso de forma mais rápida e eficiente.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →