SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval
Le papier propose SAVE, une nouvelle méthode d'apprentissage de représentations vidéo-sonores qui améliore les performances de la recherche vidéo-texte en intégrant un branchement dédié au traitement de la parole et une alignement précoce vision-son, surpassant ainsi les méthodes actuelles sur plusieurs benchmarks.