ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation
Die Arbeit stellt ViSA vor, ein Framework zur Verbesserung der aerialen Vision-Language-Navigation durch visuelle-räumliche Schlussfolgerung, das ohne Nachtraining von Sprachmodellen auskommt und auf dem CityNav-Benchmark eine 70,3%ige Steigerung der Erfolgsrate gegenüber dem aktuellen State-of-the-Art erzielt.