TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
Il paper presenta TripleSumm, un nuovo approccio che fonde in modo adattivo le modalità visiva, testuale e audio per la sintesi video, accompagnato da MoSu, il primo benchmark su larga scala che fornisce tutte e tre le modalità, con risultati che superano lo stato dell'arte su quattro dataset.