GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection
Der vorgestellte Ansatz GatedCLIP verbessert die Erkennung von Hass-Memes durch eine dynamische gated-Fusion von visuellen und textuellen Merkmalen sowie kontrastives Lernen, wodurch er im Vergleich zur CLIP-Basislinie auf dem Hateful Memes-Datensatz eine signifikant höhere AUROC von 0,66 bei nur 350.000 trainierbaren Parametern erreicht.