From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.
Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI