HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding
Le papier présente HyperTokens, une méthode utilisant un générateur de tokens et des régularisations inspirées du méta-apprentissage pour maîtriser la dynamique des tokens et réduire l'oubli dans la compréhension vidéo-linguistique continue, tout en maintenant une mémoire fixe et en améliorant les performances sur des benchmarks standards et des protocoles de transfert transmodal.