v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.