Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
Este artigo apresenta um quadro unificado para a navegação aérea visão-linguagem que permite a UAVs navegar em ambientes urbanos complexos baseando-se exclusivamente em instruções de linguagem natural e observações monoculares RGB, alcançando desempenho superior através de uma abordagem de previsão de próximo token que otimiza conjuntamente a percepção espacial, o raciocínio de trajetória e a previsão de ações.