VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
Il paper presenta VLM-Loc, un framework che sfrutta le capacità di ragionamento spaziale dei modelli visione-linguaggio su mappe a punto cloud trasformate in immagini BEV e grafi di scena per migliorare l'accuratezza della localizzazione basata su descrizioni testuali, accompagnato dal nuovo benchmark CityLoc per la valutazione sistematica.