VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation
O artigo apresenta o VLA, um modelo de Visão-Linguagem-Ação que supera as abordagens preditivas tradicionais ao gerar ações baseadas na variação do conhecimento do mundo em relação a um prior explícito, utilizando um extrator de prior, quantização latente e atenção condicional para alcançar desempenho superior e maior eficiência em tarefas robóticas.