ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation
O artigo apresenta o ViLAM, um método inovador que distila o raciocínio de modelos visão-linguagem em mapas de atenção espacial para guiar a navegação de robôs sociais, resultando em melhorias significativas na taxa de sucesso em comparação com métodos existentes.