Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
Il paper presenta Mantis, un nuovo modello Vision-Language-Action che introduce una previsione visiva svincolata (Disentangled Visual Foresight) per migliorare la comprensione e il ragionamento linguistico, ottenendo prestazioni superiori rispetto agli stati dell'arte sia su benchmark simulati che in scenari reali.