Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het internet een gigantisch, drukke markt is. Op deze markt worden er constant nieuwe "grappen" gedeeld: plaatjes met tekst erop, ook wel memes genoemd. De meeste zijn grappig en onschuldig, maar sommige zijn giftig. Ze bevatten haat, pestgedrag of kwetsende opmerkingen.

Het probleem? Er zijn zoveel memes dat mensen ze niet allemaal kunnen bekijken. En als je dat wel doet, is het psychisch heel zwaar om al dat gif te zien. Daarom hebben we slimme computers nodig die dit voor ons doen.

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht om die computers te trainen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote Allesweter" is verward

Stel je een zeer intelligente robot voor (een Groot Multimodaal Model of LMM). Deze robot kan foto's lezen, teksten begrijpen en zelfs verhalen vertellen. Hij is als een universiteitsstudent die alles over de wereld weet.

Maar als je deze student vraagt om alleen maar haatvolle memes te vinden, gaat het mis:

Hij raakt in de war: Als je hem alleen maar laat oefenen met haatvolle memes, vergeet hij soms hoe hij normaal moet praten of hoe hij andere dingen moet zien. Hij wordt als het ware "overgefitst" (te gespecialiseerd en vergeten zijn brede kennis).
Hij is niet flexibel: Memes veranderen razendsnel. Wat vandaag grappig is, is morgen haatvol. De robot kan niet snel genoeg mee met die nieuwe trends zonder opnieuw van nul af te beginnen.
Hij is niet goed genoeg: Simpele training werkt niet. De robot ziet de subtiele grappen en de kwetsende boodschappen niet altijd.

2. De Oplossing: RA-HMD (De Slimme Bibliotheek)

De auteurs hebben een nieuw systeem bedacht genaamd RA-HMD. Je kunt dit zien als het geven van een superkrachtige bibliotheek en een twee-staps trainingsschema aan de robot.

Stap 1: De "Twee-staps Training" (Eerst leren, dan specialiseren)

In plaats van de robot direct te laten werken, doen ze het in twee fases:

Fase 1: De "Veilige Leerfase". De robot leert nog steeds hoe hij normaal moet praten en denken (zodat hij zijn brede kennis behoudt), maar krijgt tegelijkertijd een extra "hoofd" om haat te herkennen. Het is alsof je een student laat studeren voor zijn examen, maar hem ook een speciaal boekje geeft over "gevaarlijke situaties". Hij leert het, maar vergeet niet hoe hij normaal moet praten.
Fase 2: De "Spiegelfase". Nu wordt de robot "bevroren" (hij kan niet meer veranderen wat hij al weet). Ze trainen alleen de extra "hoofden" om beter te kijken. Ze gebruiken een trucje: ze laten de robot naar voorbeelden kijken die op elkaar lijken (zoals twee memes die beide een specifiek soort haat tonen). Hierdoor leert de robot de essentie van haat, niet alleen de oppervlakkige details.

Stap 2: De "Slimme Bibliotheek" (Retrieval-Augmented)

Dit is het belangrijkste deel. Stel je voor dat de robot een nieuwe, rare meme ziet die hij nog nooit heeft gezien.

Oude manier: De robot probeert het uit zijn hoofd te raden. Vaak raadt hij het verkeerd.
Nieuwe manier (RA-HMD): De robot kijkt direct in zijn digitale bibliotheek. Hij zoekt naar de 20 meest vergelijkbare memes die hij al kent.
- "Hey, deze nieuwe meme lijkt erg op die ene meme van vorige week die we als 'gevaarlijk' hebben gemarkeerd. En die andere drie lijken ook op die. Dus, deze is waarschijnlijk ook gevaarlijk."

Dit werkt veel beter dan alleen maar proberen te raden. Het is alsof je een detective bent die niet alleen op zijn eigen hersenen vertrouwt, maar ook direct in zijn dossierkast kijkt voor vergelijkbare misdaden.

3. Waarom is dit zo goed?

Hij vergeet niets: Omdat ze de robot in twee stappen trainen, blijft hij een goede "algemene" robot. Hij kan nog steeds foto's beschrijven en vragen beantwoorden, terwijl hij ook haatvolle memes vindt.
Hij is sterker tegen hackers: Als iemand probeert de robot te bedriegen door kleine zwarte stipjes in een plaatje te zetten (een trucje om de computer gek te maken), faalt de oude robot. De nieuwe robot met zijn bibliotheek kijkt naar de gehele context en ziet dat het een valstrik is.
Hij kan uitleggen waarom: De oude robot zegt alleen "Ja" of "Nee". De nieuwe robot kan zeggen: "Dit is haatvol, omdat de tekst een historische tragedie gebruikt om een groep mensen te belachelijk maken." Dit is heel belangrijk voor mensen die controleren of de robot het goed doet.

Samenvatting in één zin

De auteurs hebben een slimme robot gebouwd die niet alleen haatvolle memes vindt door ze uit zijn hoofd te kennen, maar die ook direct in een bibliotheek van voorbeelden kijkt om nieuwe trends te begrijpen, zonder daarbij zijn andere slimme vaardigheden te verliezen.

Het resultaat? Een systeem dat sneller, slimmer en veiliger is dan alles wat we tot nu toe hadden, en dat zelfs beter is dan systemen die veel groter en duurder zijn.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De opkomst van sociale media heeft geleid tot een explosie van haatdragende content, vaak in de vorm van memes. Handmatige detectie is onhaalbaar vanwege de enorme hoeveelheid content en de psychologische risico's voor menselijke moderators. Hoewel Large Multimodal Models (LMMs) veelbelovend zijn voor deze taak vanwege hun vermogen om visuele en tekstuele context te integreren, ondervinden ze aanzienlijke uitdagingen bij de toepassing op haatdragende memes:

Suboptimale prestaties: Standaard Supervised Fine-Tuning (SFT) leidt vaak tot overfitting, waardoor LMMs moeite hebben om de complexe interactie tussen beeld en tekst in memes te leren. Dit resulteert in lagere nauwkeurigheid en minder kwalitatieve uitleg (rationales) van de detectiebeslissingen.
Beperkte generalisatie buiten het domein: Memes evolueren snel met maatschappelijke trends. Bestaande methoden, zoals in-context learning (het tonen van voorbeelden tijdens inferentie), blijken inefficiënt voor meme-classificatie.
Verlies van algemene vaardigheden: Het fijnafstemmen van LMMs voor specifieke taken zoals meme-classificatie kan leiden tot een degradatie van hun algemene visueel-taalvaardigheden (bijvoorbeeld op benchmarks zoals MMMU), wat het voordeel van het gebruik van een groot model ten opzichte van gespecialiseerde modellen (zoals CLIP) ondermijnt.

Methodologie: RA-HMD

De auteurs stellen RA-HMD (Retrieval-Augmented Hateful Meme Detection) voor, een robuust adaptief kader dat architecturale verbeteringen combineert met een tweestaps-fijnafstemmingstrategie.

1. Architectuur
RA-HMD behoudt de oorspronkelijke LMM-architectuur maar voegt twee trainbare componenten toe:

Een Multilayer Perceptron (MLP) die de laatste verborgen toestand van de LMM projecteert naar een embedding-vector. Deze vector wordt gebruikt voor classificatie en retrieval.
Een Logistic Regression Classifier (LRC) die werkt op deze geprojecteerde embedding.
Tijdens inferentie kan het systeem gebruikmaken van drie modi: de standaard LM Head (LMH), de LRC, of een Retrieval-Augmented KNN Classifier (RKC) die vergelijkbare memes uit een database ophaalt.

2. Tweestaps Fijnafstemming

Fase 1: Logistieke Regressie-Augmented Supervised Fine-Tuning (SFT)
- De LMM wordt gefine-tuned met LoRA (Low-Rank Adaptation) om de oorspronkelijke gewichten te bevriezen.
- De MLP en LRC worden gelijktijdig bijgewerkt.
- De loss-functie is een combinatie van de taalmodellering loss (om de generatiecapaciteit te behouden) en de binaire cross-entropy loss van de LRC (voor classificatie).
- Doel: Snelle adaptatie aan de taak zonder de taalgeneratie volledig te verstoren.
Fase 2: Contrastive Fine-Tuning
- De LMM wordt gevroren; alleen de MLP en LRC worden verder getraind.
- Er wordt gebruikgemaakt van Contrastive Learning Loss. Het systeem zoekt naar "pseudo-gold" positieve voorbeelden (zelfde label, hoge gelijkenis) en "hard negative" voorbeelden (tegenovergesteld label, hoge gelijkenis) via FAISS.
- Doel: Het expliciet uitlijnen van representaties van semantisch vergelijkbare meme-paren om de generalisatie naar onbekende distributies (out-of-domain) te verbeteren.

3. Retrieval-Augmented KNN (RKC)
Voor out-of-domain scenario's gebruikt RA-HMD de RKC. Voor een testmeme worden de $K$ meest vergelijkbare memes opgehaald uit de embedding-ruimte. De voorspelling wordt bepaald door een gewogen meerderheidsstemming op basis van de gelijkenis, wat effectiever blijkt dan traditionele in-context learning.

Belangrijkste Bijdragen

Nieuwe State-of-the-Art (SOTA): RA-HMD bereikt de beste prestaties op zes veelgebruikte meme-classificatie datasets (waaronder HatefulMemes, HarMeme, MAMI), vaak presterend boven veel grotere agentische systemen (zoals VPD-PaLI-X-55B).
Verbeterde Generalisatie en Robuustheid: Het kader toont aanzienlijk betere prestaties bij out-of-domain classificatie en is robuuster tegen adversariale aanvallen (bijv. pixelverstooring) dan standaard SFT-modellen.
Behoud van Algemene Vaardigheden: In tegenstelling tot SFT, behoudt RA-HMD de algemene visueel-taalvaardigheden van de LMM op benchmarks zoals MMMU, SEED-Bench en GQA.
Hogere Kwaliteit Rationales: Het model genereert betere, menselijker uitleggen over waarom een meme haatdragend is, wat de interpreteerbaarheid verhoogt.

Resultaten

Supervised Settings: RA-HMD (bijv. Qwen2-VL-7B) overtreft zowel gespecialiseerde CLIP-modellen als standaard SFT-LMMs. Op de HatefulMemes dataset scoort het 91.1% AUC, wat een verbetering is van meer dan 4% ten opzichte van de beste CLIP-baselines.
Low-Resource / Out-of-Domain: Wanneer getraind op één dataset (bijv. HarMeme) en getest op een andere (HatefulMemes), presteert RA-HMD met RKC aanzienlijk beter dan SFT-modellen met in-context learning. Op HarMeme leidde dit tot een verbetering van 21.6% in AUC en 19.3% in nauwkeurigheid ten opzichte van de SFT-baseline.
Adversariale Robuustheid: Onder SaltPepper-aanvallen (pixelverstooring) vertoont RA-HMD minder prestatieverlies dan SFT-modellen.
Interpreteerbaarheid: Menselijke evaluatie (via LLM-as-judge) toont aan dat RA-HMD in 61.5% van de gevallen betere rationales genereert dan SFT, vergeleken met 24.7% voor SFT.

Betekenis en Impact

Dit paper biedt een cruciale oplossing voor de praktische implementatie van LMMs in contentmoderatie. Het lost het fundamentele dilemma op tussen het specialiseren van een model voor een specifieke taak (haatdetectie) en het behoud van zijn algemene intelligentie. Door een efficiënte, tweestaps-fijnafstemming en het gebruik van retrieval-gebaseerde inferentie, maakt RA-HMD het mogelijk om:

Systeem te updaten voor nieuwe trends zonder volledige hertraining.
Betrouwbare detectie te bieden in scenario's met weinig data (low-resource).
Transparante beslissingen te nemen, wat essentieel is voor ethische AI en menselijke toezicht.

De methode is computerefficiënt (trainbaar op één consumenten-GPU in minder dan 4 uur voor minder dan $1) en biedt een schaalbare route voor het bestrijden van online haat in een dynamische digitale omgeving.

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

1. Het Probleem: De "Grote Allesweter" is verward

2. De Oplossing: RA-HMD (De Slimme Bibliotheek)

Stap 1: De "Twee-staps Training" (Eerst leren, dan specialiseren)

Stap 2: De "Slimme Bibliotheek" (Retrieval-Augmented)

3. Waarom is dit zo goed?

Samenvatting in één zin

Probleemstelling

Methodologie: RA-HMD

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics