RAE-NWM: Navigation World Model in Dense Visual Representation Space
O artigo apresenta o RAE-NWM, um modelo de mundo de navegação que opera no espaço de representações visuais densas do DINOv2 em vez de espaços latentes comprimidos, utilizando um Transformer de Difusão Condicional para melhorar a estabilidade estrutural e a precisão das ações na navegação visual.