Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
Este artículo presenta SACA, un marco de alineación contrastiva sensible a los pasos que mejora la navegación visión-lenguaje en entornos continuos al extraer supervisión densa de trayectorias imperfectas para resolver los problemas de errores acumulativos y recompensas dispersas que limitan a los modelos actuales.