MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
Die Autoren stellen mit MMSD3.0 einen neuen Benchmark für die multimodale Sarkasmerkennung vor, der ausschließlich Mehrbild-Szenarien umfasst, und entwickeln das Cross-Image Reasoning Model (CIRM), das durch gezielte Bild-zwischen-Bild-Modellierung und feinkörnige multimodale Fusion einen neuen State-of-the-Art in beiden Ein- und Mehrbild-Szenarien erreicht.