Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
O artigo apresenta o Pri4R, uma abordagem que aprimora modelos Visão-Linguagem-Ação (VLA) ao incorporar dinâmicas do mundo por meio da previsão de rastros de pontos 3D durante o treinamento, resultando em melhor desempenho em tarefas de manipulação física sem adicionar custo computacional ou complexidade na inferência.