Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Il paper presenta Mantis, un nuovo modello Vision-Language-Action che introduce una previsione visiva svincolata (Disentangled Visual Foresight) per migliorare la comprensione e il ragionamento linguistico, ottenendo prestazioni superiori rispetto agli stati dell'arte sia su benchmark simulati che in scenari reali.

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

Pubblicato 2026-02-24
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot a fare le faccende di casa, come mettere una tazza sul tavolo o prendere un libro. Il problema è che i robot sono spesso "ciechi" nel senso che non capiscono cosa sta succedendo intorno a loro, ma si limitano a seguire istruzioni rigide.

Questo paper presenta Mantis, un nuovo "cervello" per robot che è come un mago della previsione combinato con un professore di lingua.

Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Il Robot che fa troppo allo stesso tempo

Fino a ora, i robot cercavano di fare due cose contemporaneamente:

  1. Capire cosa vedi (es. "Quello è un cubo rosso").
  2. Prevedere il futuro (es. "Se muovo la mano, il cubo cadrà qui").
  3. Agire (es. "Muovi il braccio").

Il problema è che il cervello del robot si confondeva. Cercare di prevedere ogni singolo pixel del futuro (come un film) lo rendeva lento e costoso, e spesso dimenticava come capire le istruzioni umane. Era come chiedere a uno studente di risolvere un'equazione matematica mentre deve anche dipingere un quadro: il risultato è spesso mediocre in entrambe le cose.

2. La Soluzione di Mantis: La "Visione Slegata" (Disentangled Visual Foresight)

Mantis risolve questo problema separando i compiti, come se avesse due menti distinte che lavorano in squadra:

  • Il Professore (Il Cervello Principale): È un modello linguistico molto intelligente (basato su Qwen2.5-VL). Il suo lavoro è capire le tue parole ("Mettimi la tazza sul tavolo") e ragionare ("Ok, il tavolo è lì, la tazza è qui"). Mantis non lo tocca quasi mai, così rimane un esperto di linguaggio e ragionamento.
  • Il Magico Oracolo (La Testa di Previsione): Questa è la parte nuova. Invece di far calcolare al Professore il futuro, Mantis ha un "assistente magico" (chiamato Diffusion Transformer) che guarda solo le immagini.
    • L'analogia: Immagina di guardare un film. Il Professore capisce la trama e i dialoghi. L'Oracolo, invece, guarda solo i fotogrammi e dice: "Se il protagonista fa questo movimento, il fotogramma successivo sarà questo".
    • Il trucco: L'Oracolo non deve dire al robot cosa fare direttamente. Deve solo dire: "Guarda come cambiano le cose!". Questo cambiamento invisibile (chiamato "azione latente") aiuta il robot a capire il movimento necessario senza sovraccaricare il cervello principale.

3. L'Allenamento: Imparare a Tre Stadi

Mantis non impara tutto in una volta. Segue una ricetta progressiva, come un atleta che si allina per le Olimpiadi:

  1. Fase 1 (Guardare): Guarda 220.000 video di umani che fanno cose. Impara a prevedere come si muovono gli oggetti senza ancora toccare un robot.
  2. Fase 2 (Agire): Guarda 76.000 video di robot reali. Impara a collegare quello che vede con i movimenti meccanici.
  3. Fase 3 (Parlare): Qui entra in gioco la magia. Mantis impara a parlare e ragionare usando 38 diversi dataset di immagini e testi. Questo gli permette di capire non solo "muovi il braccio", ma anche "Mettimi la tazza su Iron Man" (sapendo che Iron Man è un supereroe su una copertina).

4. Il Trucco Finale: L'Ensemble Adattivo (ATE)

Quando il robot esegue un compito, a volte è necessario essere molto precisi (come afferrare un uovo), altre volte si può essere più veloci (come spostare un cuscino).
Mantis ha un sistema intelligente chiamato ATE (Adaptive Temporal Ensemble):

  • L'analogia: Immagina di guidare un'auto. Se sei in autostrada dritta, puoi guardare avanti solo ogni tanto (risparmiando benzina/cervello). Se stai parcheggiando in uno spazio stretto, devi guardare continuamente e fare micro-correzioni.
  • Mantis fa lo stesso: se rileva che sta manipolando un oggetto delicato, fa più calcoli per essere sicuro. Se sta muovendo qualcosa di semplice, fa meno calcoli, risparmiando tempo ed energia.

I Risultati: Perché è speciale?

  • Velocità: Impara molto più velocemente dei robot precedenti perché non si perde in calcoli inutili.
  • Intelligenza: Se gli chiedi "Quanti cubi ci sono meno le tazze?", sa contare e fare la sottrazione (ragionamento), cosa che molti robot non sanno fare.
  • Generalizzazione: Se gli chiedi di mettere un oggetto su "Taylor Swift" (sapendo che è una cantante), lo fa. Se gli chiedi di metterlo su "Michael Jordan" (sapendo che è un giocatore di basket), lo fa. I robot vecchi si bloccavano perché non capivano chi fossero quelle persone.

In sintesi: Mantis è un robot che non solo vede e agisce, ma immagina il futuro in modo intelligente e capisce il linguaggio umano senza perdere la testa. È come avere un assistente personale che è sia un ingegnere esperto che un filosofo colto.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →