Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.