VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models
Die Arbeit stellt VITA vor, eine Methode zur Null-Shot-Lernung von Wertfunktionen, die durch Testzeit-Adaptation von Vision-Language-Modellen deren Generalisierungsfähigkeit und zeitliches Schlussfolgern verbessert und damit in robotischen Manipulationsaufgaben sowie beim Offline-Reinforcement-Learning den aktuellen Stand der Technik übertrifft.