SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation
SPAN-Nav es un modelo fundacional de extremo a extremo que mejora la navegación visión-idioma mediante la inyección de conciencia espacial 3D universal en el razonamiento de acciones, utilizando un token espacial compacto y un conjunto de datos masivo para lograr un rendimiento superior y una generalización robusta en diversos entornos.