Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models
Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.