ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation
Il paper presenta ViLAM, un metodo innovativo che distilla il ragionamento visivo-linguistico da grandi modelli in mappe di attenzione spaziale per guidare la navigazione socialmente consapevole di robot, ottenendo miglioramenti significativi nel tasso di successo rispetto alle tecniche esistenti.