SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation
O artigo apresenta o SPAN-Nav, um modelo fundamental de ponta a ponta que aprimora a navegação visão-linguagem ao integrar uma consciência espacial 3D universal, extraída de um vasto conjunto de dados de ocupação e condensada em um único token para raciocínio de ações, alcançando desempenho superior em diversos cenários e validada em experimentos do mundo real.
Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs