Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
本論文は、連続環境における視覚言語ナビゲーション(VLN-CE)において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント(SACA)」を提案し、SOTA 性能を達成したことを示しています。