Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a fazer tarefas domésticas, como arrumar a mesa ou pegar um copo d'água. O grande desafio é: como fazer o robô não apenas "ver" o que está acontecendo, mas também "pensar" no que vai acontecer a seguir e entender o que você está pedindo?

O artigo "Mantis" apresenta uma nova inteligência artificial que resolve esse problema de uma forma muito inteligente. Vamos usar uma analogia simples para entender como funciona.

1. O Problema: O Robô "Cego" e o "Cérebro" Sobrecarregado

Antes do Mantis, os robôs tinham dois problemas principais:

O Dilema do Futuro: Para agir bem, o robô precisa prever o futuro (ex: "se eu mover a mão assim, o copo vai cair"). Mas tentar prever cada detalhe da imagem futura (cores, sombras, texturas) deixa o robô confuso e lento, como tentar dirigir olhando para o espelho retrovisor em vez da estrada.
A Perda de Memória: Quando focamos demais em prever o movimento, o robô esquece de entender a linguagem. Ele pode saber mover o braço, mas não entende se você pediu "pegue a caneca vermelha" ou "pegue a caneca azul". Ele perde a capacidade de raciocínio.

2. A Solução: O Mantis e o "Oráculo Desacoplado"

O Mantis introduz uma ideia chamada Previsão Visual Desacoplada.

Imagine que o robô é um maestro (o cérebro principal) e ele tem um oráculo mágico (o Mantis) ao seu lado.

O Maestro (Backbone): É o especialista em entender o que você diz e o que ele vê. Ele é o "cérebro" que sabe quem é o Iron Man ou que 3 menos 1 é 2.
O Oráculo (Cabeça de Previsão): É um especialista em prever o futuro visual, mas ele é "desacoplado". Isso significa que ele não atrapalha o maestro.

Como funciona a mágica?
Em vez de o maestro tentar prever a próxima imagem inteira (o que é difícil e cansativo), ele usa o Oráculo para fazer isso. O Oráculo olha para a cena atual e diz: "Ei, se você mover o braço para a direita, a próxima imagem vai ter o copo ali".

O ponto genial é que o Oráculo não precisa desenhar a imagem inteira. Ele apenas identifica os movimentos ocultos (ações latentes). É como se o Oráculo dissesse ao maestro: "Não se preocupe com a cor do fundo, foque apenas no fato de que o copo vai se mover 5 centímetros para a esquerda".

Isso libera o "cérebro" do robô para continuar sendo inteligente, entendendo linguagem e raciocinando, enquanto o Oráculo cuida da parte técnica de prever o movimento.

3. O Treinamento: Aprendendo em Etapas

Para não confundir o robô, os criadores do Mantis usaram um método de ensino em três etapas, como se fosse uma escola:

Escola de Observação: Primeiro, o robô assiste a milhares de vídeos de humanos fazendo coisas (sem robôs). Ele aprende a prever o que acontece depois de um movimento, apenas observando.
Escola de Prática: Depois, ele vê vídeos de robôs reais fazendo as tarefas. Agora ele conecta a previsão visual com os movimentos reais do robô.
Escola de Língua: Por fim, ele aprende a conversar. Aqui, ele é treinado com textos e imagens para garantir que ele entenda comandos complexos como "pegue o objeto que mata a sede" (em vez de apenas "pegue a garrafa").

4. A Inovação de Eficiência: O "Ensemble Adaptativo"

Durante a execução, o robô precisa ser estável. O Mantis usa uma técnica chamada Ensemble Temporal Adaptativo (ATE).

Pense nisso como um piloto automático inteligente:

Se o robô está apenas movendo o braço no ar (sem pegar nada), o sistema é rápido e faz menos verificações para economizar energia e tempo.
Mas, se o robô está segurando uma xícara de café cheia e precisa colocá-la na mesa, o sistema percebe que é uma tarefa delicada. Ele então aumenta a "atenção", fazendo mais verificações rápidas para garantir que o movimento seja suave e não derrube o café.

É como um motorista que dirige rápido na estrada reta, mas reduz a velocidade e aumenta a atenção ao fazer uma curva fechada ou estacionar.

5. Os Resultados: O Robô que Entende e Faz

Os testes mostraram que o Mantis é incrível:

No Simulador: Ele acertou 96,7% das tarefas em um teste difícil (LIBERO), superando todos os outros robôs de ponta.
No Mundo Real: Quando testado em um robô físico, ele entendeu comandos que exigiam conhecimento do mundo (ex: "coloque a xícara em cima do cantor Taylor Swift") e lógica (ex: "coloque o urso no número 8, que é 3 mais 5").
Comparação: Ele foi muito melhor que o modelo anterior mais famoso (chamado $\pi0.5$ ), especialmente em entender instruções novas e difíceis.

Resumo Final

O Mantis é como dar a um robô um assistente pessoal que cuida da previsão do futuro visual, permitindo que o robô principal foque no que ele faz de melhor: entender o que você diz e raciocinar.

Ao separar a tarefa de "prever o futuro" da tarefa de "entender a linguagem", eles criaram um robô que não só se move com precisão, mas também pensa como um humano, entendendo contextos, piadas e instruções complexas, tudo isso de forma mais rápida e eficiente.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Mantis

1. O Problema

Os modelos Visão-Linguagem-Ação (VLA) representam um avanço significativo na robótica, permitindo que robôs traduzam instruções linguísticas e observações visuais em ações executáveis. No entanto, os métodos existentes enfrentam três desafios fundamentais:

Descompasso de Supervisão: Os sinais de ação (controle do robô) são de baixa dimensão e esparsos, enquanto as entradas visuais são de alta dimensão. Isso leva a uma subutilização da capacidade representacional do modelo.
Custo e Redundância: Tentativas anteriores de integrar a previsão visual futura (foresight) diretamente no treinamento do VLA para enriquecer a supervisão muitas vezes resultam em custos de treinamento proibitivos e convergência lenta, devido à redundância de informações visuais que distraem o modelo da previsão de ações.
Perda de Capacidades Cognitivas: Métodos que comprimem estados visuais em sinais compactos criam "gargalos de informação", perdendo variações sutis. Além disso, a falta de supervisão linguística robusta durante o treinamento de robótica degrada a capacidade de compreensão de contexto e raciocínio do modelo, limitando sua generalização para instruções não vistas.

2. Metodologia

O Mantis é um novo framework projetado para resolver esses problemas através de uma arquitetura inovadora e um roteiro de treinamento progressivo.

A. Previsão Visual Desacoplada (Disentangled Visual Foresight - DVF)
A principal inovação do Mantis é o desacoplamento da previsão de estados visuais futuros da espinha dorsal (backbone) do modelo principal.

Arquitetura: O modelo utiliza um backbone VLM (baseado no Qwen2.5-VL) conectado a um cabeçote de Diffusion Transformer (DiT) (baseado no Sana).
Mecanismo: Em vez de o backbone prever pixels diretamente, o Mantis utiliza queries de ação latente ([LAT]) e um cabeçote DiT para prever o próximo quadro visual ( $o_{t+n}$ ).
Conexão Residual: O estado visual atual ( $o_t$ ) é alimentado no DiT via conexão residual. Isso permite que as queries de ação latente capturem apenas a dinâmica inter-frame (o movimento e a mudança), em vez de reconstruir a imagem inteira.
Benefício: Essas queries extraem automaticamente "ações latentes" que delineiam a trajetória visual. Essas ações latentes são então usadas para guiar o cabeçote de ação explícito, fornecendo dicas de "olhar à frente" (look-ahead) sem sobrecarregar o backbone com a tarefa de geração de imagens.

B. Roteiro de Treinamento Progressivo
Para evitar competição entre modalidades e garantir estabilidade, o treinamento ocorre em três estágios:

Treinamento de Visão com Múltiplos Gaps: O modelo é pré-treinado em vídeos de manipulação humana (SSV2) para prever quadros futuros em diferentes intervalos de tempo, aprendendo habilidades gerais de manipulação e conhecimento do mundo, mantendo o backbone congelado.
Treinamento Conjunto Visão-Ação: Introduz-se o dataset de demonstrações robóticas (DROID). O modelo é otimizado para prever tanto o quadro futuro quanto a ação, alinhando os fluxos visuais e de ação.
Treinamento com Supervisão Linguística: O backbone é desbloqueado e o modelo é treinado em 38 datasets multimodais (incluindo VQA, OCR, etc.) junto com dados de robótica. Isso preserva e reforça as capacidades de raciocínio e compreensão semântica do modelo.

C. Ensemble Temporal Adaptativo (ATE)
Durante a inferência, o Mantis utiliza uma estratégia chamada Adaptive Temporal Ensemble (ATE) para equilibrar eficiência e estabilidade:

O sistema identifica "patches alvo" (objetos relevantes à instrução) e "patches dinâmicos" (áreas com movimento significativo).
Se houver sobreposição entre esses patches (indicando manipulação fina, como agarrar um objeto), o ensemble temporal é ativado para garantir estabilidade.
Caso contrário, o ensemble é desativado para reduzir o custo computacional e aumentar a velocidade.

3. Principais Contribuições

Framework Mantis: Um novo modelo VLA que integra previsão visual futura de forma desacoplada, fornecendo dicas de ação latente sem comprometer a capacidade de raciocínio do backbone.
DVF (Disentangled Visual Foresight): Uma abordagem que separa a previsão de estados visuais da geração de ações, permitindo aprendizado mais eficiente e convergência rápida.
Estratégia de Treinamento Progressivo: Um roteiro que funde modalidades (visão, ação, linguagem) de forma estável, preservando as capacidades fundamentais do modelo de linguagem.
Mantis-ATE: Uma variante que otimiza a inferência, reduzindo o número de chamadas de inferência em até 50% sem perda de desempenho.

4. Resultados Experimentais

O Mantis foi avaliado em benchmarks de simulação e em experimentos no mundo real:

Benchmarks de Simulação (LIBERO):
- O Mantis alcançou uma taxa de sucesso média de 96,7% no benchmark LIBERO, superando modelos de ponta como UnifiedVLA (95,5%), F1 (95,7%) e OpenVLA (76,5%).
- Demonstrou uma velocidade de convergência significativamente superior em comparação com métodos de previsão visual entrelaçados (como o UnifiedVLA), que levaram mais de 10 épocas para começar a aprender, enquanto o Mantis convergiu rapidamente.
Experimentos no Mundo Real (Plataforma Agilex):
- O Mantis superou o modelo de código aberto líder $\pi0.5$ em todas as métricas.
- Seguimento de Instruções e Generalização: O Mantis demonstrou capacidades superiores em seguir instruções complexas e generalizar para instruções fora de distribuição (OOD), como resolver problemas de aritmética básica ("coloque o urso no número (3+5)") ou usar conhecimento do mundo ("coloque a xícara em Taylor Swift"). O $\pi0.5$ falhou consistentemente nessas tarefas OOD.
- Eficiência: A variante Mantis-ATE reduziu o número de inferências em 50% mantendo a mesma taxa de sucesso.
Ablação de Supervisão Linguística:
- Experimentos mostraram que sem a supervisão linguística no estágio final, o modelo perde drasticamente sua capacidade de generalização para instruções não vistas (OOD), confirmando a importância da manutenção das capacidades do VLM.

5. Significado e Impacto

O trabalho do Mantis representa um avanço crucial na robótica baseada em modelos fundacionais. Ao desacoplar a previsão visual da geração de ação, o modelo consegue:

Resolver o dilema custo-benefício: Obtém os benefícios da previsão densa de estados futuros sem o custo computacional excessivo ou a perda de capacidades cognitivas.
Preservar a Inteligência: Demonstra que é possível treinar robôs para tarefas físicas complexas sem "esquecer" o conhecimento de mundo e a capacidade de raciocínio adquiridos durante o pré-treinamento de linguagem.
Generalização Robusta: Estabelece um novo padrão para a capacidade de robôs seguirem instruções complexas e abstratas no mundo real, aproximando-se de uma verdadeira generalização de tarefas não vistas.

O código e os pesos do modelo foram liberados para a comunidade de código aberto, facilitando a reprodução e o avanço futuro na área de modelos VLA.

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

1. O Problema: O Robô "Cego" e o "Cérebro" Sobrecarregado

2. A Solução: O Mantis e o "Oráculo Desacoplado"

3. O Treinamento: Aprendendo em Etapas

4. A Inovação de Eficiência: O "Ensemble Adaptativo"

5. Os Resultados: O Robô que Entende e Faz

Resumo Final

Resumo Técnico: Mantis

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems