SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval
O artigo apresenta o SAVE, um método de aprendizado de representação de vídeo que supera os atuais métodos de ponta ao incorporar uma ramificação dedicada para processar o conteúdo de fala e utilizar o soft-ALBEF para alinhamento precoce entre visão e áudio, resultando em melhorias significativas em cinco benchmarks de recuperação vídeo-texto.