MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
Este trabajo presenta MMSD3.0, un nuevo benchmark compuesto exclusivamente por muestras de múltiples imágenes para la detección de sarcasmo multimodal en escenarios del mundo real, junto con el modelo CIRM que logra un rendimiento superior mediante el modelado de relaciones entre imágenes y una fusión multimodal guiada por relevancia.