SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation
Die Arbeit stellt SPAN-Nav vor, ein end-to-end Fundamentmodell, das durch eine neuartige kompakte räumliche Repräsentation und ein CoT-ähnliches Mechanismus robustes räumliches Bewusstsein für die vielseitige vision-sprachbasierte Navigation in komplexen Umgebungen ermöglicht und dabei auf einem massiven Datensatz trainiert wurde, um in verschiedenen Szenarien state-of-the-art Ergebnisse zu erzielen.
Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs