Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
Die vorgestellte Arbeit schlägt einen retrieval-basierten Rahmen vor, der durch die Kombination von instruktionsbasierten Trajektorien-Beispielen und der Vorauswahl relevanter Navigationskandidaten die Effizienz und Stabilität von LLM-basiertem Vision-and-Language Navigation verbessert, ohne das zugrunde liegende Sprachmodell zu modifizieren.