VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models
Le papier présente VITA, une méthode d'apprentissage de fonctions de valeur sans échantillon qui améliore la généralisation et le raisonnement temporel des modèles vision-langage grâce à une adaptation au moment du test et une stratégie d'échantillonnage diversifié, surpassant les méthodes existantes dans des tâches de manipulation robotique et le renforcement hors ligne.