ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation
El artículo presenta ViLAM, un método que destila el razonamiento de modelos de visión-idioma en mapas de atención espacial para mejorar la navegación socialmente compliant de robots, logrando mejoras significativas en la tasa de éxito mediante experimentos reales.