Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation
Le papier présente Pri4R, une méthode simple et efficace qui améliore les modèles Vision-Language-Action en leur apprenant implicitement la dynamique du monde via l'entraînement sur des trajectoires de points 3D privilégiées, sans ajouter de surcoût computationnel ni modifier l'architecture lors de l'inférence.