SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation
Dit paper introduceert SPAN-Nav, een end-to-end fundamenteel model dat robuuste 3D-ruimtelijke bewustzijn in visueel-taal navigatie mogelijk maakt door middel van een compacte ruimtelijke token, multi-task training en een nieuw dataset met 4,2 miljoen annotaties, wat leidt tot state-of-the-art prestaties in diverse scenario's.
Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs