ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation
Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.