v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
Ce papier présente v-HUB, une nouvelle référence pour l'évaluation de la compréhension de l'humour vidéo par les modèles de langage multimodaux, démontrant que l'intégration de l'audio améliore significativement leurs performances face à des défis visuels complexes.