Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot a fare le faccende di casa, come mettere una tazza sul tavolo o prendere un libro. Il problema è che i robot sono spesso "ciechi" nel senso che non capiscono cosa sta succedendo intorno a loro, ma si limitano a seguire istruzioni rigide.

Questo paper presenta Mantis, un nuovo "cervello" per robot che è come un mago della previsione combinato con un professore di lingua.

Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Il Robot che fa troppo allo stesso tempo

Fino a ora, i robot cercavano di fare due cose contemporaneamente:

Capire cosa vedi (es. "Quello è un cubo rosso").
Prevedere il futuro (es. "Se muovo la mano, il cubo cadrà qui").
Agire (es. "Muovi il braccio").

Il problema è che il cervello del robot si confondeva. Cercare di prevedere ogni singolo pixel del futuro (come un film) lo rendeva lento e costoso, e spesso dimenticava come capire le istruzioni umane. Era come chiedere a uno studente di risolvere un'equazione matematica mentre deve anche dipingere un quadro: il risultato è spesso mediocre in entrambe le cose.

2. La Soluzione di Mantis: La "Visione Slegata" (Disentangled Visual Foresight)

Mantis risolve questo problema separando i compiti, come se avesse due menti distinte che lavorano in squadra:

Il Professore (Il Cervello Principale): È un modello linguistico molto intelligente (basato su Qwen2.5-VL). Il suo lavoro è capire le tue parole ("Mettimi la tazza sul tavolo") e ragionare ("Ok, il tavolo è lì, la tazza è qui"). Mantis non lo tocca quasi mai, così rimane un esperto di linguaggio e ragionamento.
Il Magico Oracolo (La Testa di Previsione): Questa è la parte nuova. Invece di far calcolare al Professore il futuro, Mantis ha un "assistente magico" (chiamato Diffusion Transformer) che guarda solo le immagini.
- L'analogia: Immagina di guardare un film. Il Professore capisce la trama e i dialoghi. L'Oracolo, invece, guarda solo i fotogrammi e dice: "Se il protagonista fa questo movimento, il fotogramma successivo sarà questo".
- Il trucco: L'Oracolo non deve dire al robot cosa fare direttamente. Deve solo dire: "Guarda come cambiano le cose!". Questo cambiamento invisibile (chiamato "azione latente") aiuta il robot a capire il movimento necessario senza sovraccaricare il cervello principale.

3. L'Allenamento: Imparare a Tre Stadi

Mantis non impara tutto in una volta. Segue una ricetta progressiva, come un atleta che si allina per le Olimpiadi:

Fase 1 (Guardare): Guarda 220.000 video di umani che fanno cose. Impara a prevedere come si muovono gli oggetti senza ancora toccare un robot.
Fase 2 (Agire): Guarda 76.000 video di robot reali. Impara a collegare quello che vede con i movimenti meccanici.
Fase 3 (Parlare): Qui entra in gioco la magia. Mantis impara a parlare e ragionare usando 38 diversi dataset di immagini e testi. Questo gli permette di capire non solo "muovi il braccio", ma anche "Mettimi la tazza su Iron Man" (sapendo che Iron Man è un supereroe su una copertina).

4. Il Trucco Finale: L'Ensemble Adattivo (ATE)

Quando il robot esegue un compito, a volte è necessario essere molto precisi (come afferrare un uovo), altre volte si può essere più veloci (come spostare un cuscino).
Mantis ha un sistema intelligente chiamato ATE (Adaptive Temporal Ensemble):

L'analogia: Immagina di guidare un'auto. Se sei in autostrada dritta, puoi guardare avanti solo ogni tanto (risparmiando benzina/cervello). Se stai parcheggiando in uno spazio stretto, devi guardare continuamente e fare micro-correzioni.
Mantis fa lo stesso: se rileva che sta manipolando un oggetto delicato, fa più calcoli per essere sicuro. Se sta muovendo qualcosa di semplice, fa meno calcoli, risparmiando tempo ed energia.

I Risultati: Perché è speciale?

Velocità: Impara molto più velocemente dei robot precedenti perché non si perde in calcoli inutili.
Intelligenza: Se gli chiedi "Quanti cubi ci sono meno le tazze?", sa contare e fare la sottrazione (ragionamento), cosa che molti robot non sanno fare.
Generalizzazione: Se gli chiedi di mettere un oggetto su "Taylor Swift" (sapendo che è una cantante), lo fa. Se gli chiedi di metterlo su "Michael Jordan" (sapendo che è un giocatore di basket), lo fa. I robot vecchi si bloccavano perché non capivano chi fossero quelle persone.

In sintesi: Mantis è un robot che non solo vede e agisce, ma immagina il futuro in modo intelligente e capisce il linguaggio umano senza perdere la testa. È come avere un assistente personale che è sia un ingegnere esperto che un filosofo colto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli Vision-Language-Action (VLA) rappresentano un approccio promettente per il controllo robotico, traducendo istruzioni linguistiche e osservazioni visive in azioni eseguibili. Tuttavia, le attuali soluzioni affrontano tre sfide fondamentali:

Squilibrio nella capacità di rappresentazione: I segnali di azione sono spesso a bassa dimensionalità e sparsi, insufficienti per supervisionare modelli VLA di grandi dimensioni che elaborano input sensoriali ad alta dimensionalità.
Costi computazionali e colli di bottiglia: Integrare la previsione di stati visivi futuri (visual foresight) direttamente nel backbone del modello può distrarre il modello dalle azioni, aumentando i costi di addestramento. Al contrario, comprimere gli stati visivi in segnali più compatti crea colli di bottiglia informativi, perdendo dettagli fini sui movimenti.
Degrado delle capacità cognitive: L'addestramento specifico per i robot tende a sovrascrivere le allineamenti visione-testo appresi durante la pre-addestramento, riducendo la capacità del modello di comprendere il linguaggio, seguire istruzioni complesse e ragionare.

2. Metodologia: Mantis e Disentangled Visual Foresight (DVF)

Il paper introduce Mantis, un nuovo framework che risolve questi problemi attraverso una Previsione Visiva Svincolata (Disentangled Visual Foresight - DVF).

Architettura del Modello

Mantis è composto da:

Backbone: Utilizza Qwen2.5-VL per la robusta comprensione linguistica e visiva.
Testa DVF (Diffusion Transformer - DiT): Prevede gli stati visivi futuri. A differenza dei metodi precedenti, questa testa è disaccoppiata dal backbone principale.
Query Latenti-Azione ([LAT]): Invece di ricostruire l'intero frame futuro, le query latenti catturano le dinamiche inter-frame (il "movimento" necessario per passare dallo stato attuale a quello futuro).
Connessione Residuale: Lo stato visivo corrente ( $o_t$ ) viene fornito alla testa DiT tramite una connessione residua. Questo permette alle query [LAT] di focalizzarsi esclusivamente sulle differenze dinamiche (azioni latenti) piuttosto che sulla ricostruzione statica.
Testa di Azione: Utilizza le query [LAT] (che contengono le azioni latenti estratte) e le query di azione esplicite ([ACT]) per generare la traiettoria di azione futura.

Strategia di Addestramento (Progressive Training Recipe)

Per evitare conflitti tra i segnali di apprendimento delle diverse modalità, Mantis utilizza un addestramento progressivo in tre fasi:

Training Visivo Multi-Intervallo: Addestramento su video di manipolazione umana (SSV2) per prevedere frame futuri a diversi intervalli temporali, congelando il backbone per preservare le conoscenze linguistiche.
Training congiunto Visione-Azione: Introduzione dei dati di dimostrazione robotica (DROID) per allineare la previsione visiva con le azioni reali, ottimizzando sia la perdita visiva che quella di azione.
Training con Supervisione Linguistica: Addestramento congiunto su 38 dataset multimodali (es. LLaVA-Instruct, COCO) e dati robotici. Questo passo è cruciale per mantenere le capacità di ragionamento e comprensione del linguaggio del backbone.

Inferenza: Adaptive Temporal Ensemble (ATE)

Per bilanciare stabilità del movimento ed efficienza computazionale, Mantis introduce l'ATE.

Analizza l'overlap tra le "patch target" (oggetti rilevanti per l'istruzione) e le "patch dinamiche" (regioni con movimento significativo).
Se c'è sovrapposizione (es. manipolazione fine), attiva l'ensemble temporale per stabilizzare il movimento.
Se non c'è sovrapposizione, disabilita l'ensemble per ridurre il numero di inferenze e accelerare l'esecuzione.

3. Contributi Chiave

Disentangled Visual Foresight (DVF): Un'architettura che separa la previsione visiva dal backbone, permettendo al modello di apprendere azioni latenti efficaci senza appesantire la capacità di comprensione semantica.
Ricetta di Addestramento Progressivo: Un metodo innovativo per fondere visione, linguaggio e azione in modo stabile, preservando le capacità di ragionamento del modello.
Strategia ATE: Una tecnica di inferenza adattiva che riduce il carico computazionale fino al 50% mantenendo la stabilità delle operazioni robotiche.

4. Risultati Sperimentali

Benchmark di Simulazione (LIBERO)

Mantis ha raggiunto un tasso di successo medio del 96.7% sul benchmark LIBERO, superando modelli di punta come OpenVLA (76.5%), π0 (94.2%) e UnifiedVLA (95.5%).
Ha dimostrato una velocità di convergenza significativamente superiore rispetto ai metodi di visual foresight tradizionali (come UnifiedVLA), che spesso impiegano molte epoche per convergere o falliscono inizialmente.

Esperimenti nel Mondo Reale (Piattaforma Agilex)

Follow-up delle Istruzioni: Mantis supera il modello open-source leader π0.5 nel seguire istruzioni sia in-dominio (ID) che out-of-domain (OOD).
Generalizzazione e Ragionamento: Mantis dimostra capacità di ragionamento superiore (es. aritmetica di base, conoscenza del mondo come "Taylor Swift" o "Iron Man") e generalizzazione a istruzioni non viste, grazie alla supervisione linguistica mantenuta durante l'addestramento.
Efficienza: La variante Mantis-ATE riduce il numero di chiamate di inferenza del 50% rispetto alla versione standard, mantenendo prestazioni di successo comparabili.

Ablation Study

La rimozione della connessione residua o la mancanza di pre-addestramento video sulla testa DVF portano a un calo delle prestazioni, confermando l'importanza della progettazione architetturale.
La rimozione della supervisione linguistica (Mantis-LU) causa un crollo delle prestazioni su istruzioni OOD, dimostrando che la supervisione linguistica è essenziale per la generalizzazione.

5. Significato e Impatto

Il lavoro su Mantis rappresenta un passo avanti significativo nell'ambito della robotica basata su modelli fondazionali:

Superamento del compromesso: Dimostra che è possibile integrare la previsione visiva densa (necessaria per la pianificazione) senza sacrificare le capacità di comprensione e ragionamento del modello.
Efficienza: L'introduzione di DVF e ATE risolve problemi di costo computazionale e stabilità, rendendo i modelli VLA più pratici per l'implementazione nel mondo reale.
Riproducibilità: Il codice e i pesi del modello sono stati rilasciati, favorendo la comunità open-source.

In sintesi, Mantis stabilisce un nuovo stato dell'arte per i robot che devono non solo agire, ma anche comprendere, ragionare e adattarsi a istruzioni complesse e ambienti non visti, grazie a un'architettura che disaccoppia intelligentemente la previsione visiva dall'apprendimento delle azioni.