ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation
Le papier présente ViLAM, une méthode novatrice qui distille le raisonnement vision-langage de grands modèles dans des cartes d'attention spatiale pour guider la navigation de robots sociaux, démontrant ainsi une amélioration significative du taux de réussite par rapport aux méthodes existantes lors d'expériences réelles.