TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
O artigo apresenta o TripleSumm, uma arquitetura inovadora que funde adaptativamente modalidades visuais, textuais e auditivas ao nível de quadro para sumarização de vídeo, e introduz o MoSu, o primeiro benchmark em larga escala com essas três modalidades, demonstrando desempenho superior ao estado da arte.