BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, drukke markt hebt waar iedereen reclame maakt voor hun producten. Soms zijn de verkopers eerlijk, maar soms proberen ze je te bedriegen met opgeblazen beloftes ("Deze telefoon is gratis!"), valse verhalen of zelfs gevaarlijke adviezen.

Vroeger hadden we op deze markt alleen maar politieagenten die heel snel keken: "Is er naakt te zien? Ja? Dan weg." Of "Is er geweld? Ja? Dan weg." Maar in de wereld van korte video's (zoals op TikTok of Instagram) is het veel lastiger. Een verkoper kan een heel normaal gezicht hebben, maar in de tekst beloven dat je in één nacht miljonair wordt. Of ze kunnen zeggen dat een thee je ziekte geneest, terwijl het beeldje gewoon een kopje thee toont.

Dit is waar BLM-Guard voor komt. Het is als een super-intelligente, eerlijke inspecteur die niet alleen kijkt, maar ook denkt en uitlegt.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Denk-stap" (Chain-of-Thought)

Stel je voor dat een gewone camera alleen zegt: "Ik zie een telefoon."
BLM-Guard doet alsof het een detective is die hardop denkt terwijl hij kijkt:

"Oké, ik zie een telefoon op het scherm."
"Maar wacht even, de stem zegt: 'Dit is gratis en het beste ter wereld'."
"Huh? Dat klopt niet. Niets is gratis. En de tekst in de video zegt iets over 'cheating' (bedriegen)."
"Conclusie: Dit is een valstrik. De tekst en het beeld kloppen niet met de regels."

In plaats van alleen een "ja" of "nee" te geven, schrijft deze inspecteur een dossier op waarin hij stap voor stap uitlegt waarom hij iets verbiedt. Zo weten we precies wat er mis is.

2. De "Regelboekjes" (Policy-Aligned Rewards)

Deze inspecteur is niet zomaar een robot; hij heeft een dikke handleiding met alle regels van de markt.

Stap 1: Leren van de handleiding. Eerst laten we de robot duizenden voorbeelden zien met de regels ernaast. Hij leert: "Als je 'gratis' zegt maar het kost geld, dan is dat een overtreding." Dit noemen ze Supervised Fine-Tuning. Het is alsof je een stagiair eerst alle regels laat lezen voordat hij aan het werk gaat.
Stap 2: Oefenen met feedback. Daarna laten we de robot zelf oefenen. Als hij een fout maakt, krijgt hij een rode kaart (een negatieve score). Als hij het goed doet en zijn uitleg is logisch, krijgt hij een gouden ster (een positieve score).
De slimme truc: Soms veranderen de regels (bijvoorbeeld: "Vroeger was 'rijk worden' oké, nu niet meer"). De robot leert om zichzelf te corrigeren. Als hij merkt dat zijn uitleg niet meer past bij de huidige regels, past hij zichzelf aan. Dit heet Reinforcement Learning.

3. De "Oog-oor-coördinatie" (Multimodal)

Een gewone robot kijkt misschien alleen naar de tekst of alleen naar het plaatje. BLM-Guard is als een mens die alle zintuigen gebruikt:

Hij kijkt naar het beeld (een glimlachend gezicht).
Hij luistert naar de stem (die dreigende toon).
Hij leest de ondertiteling (die beloftes doet).
En dan vraagt hij zich af: "Klopt dit verhaal wel?" Als de stem zegt "Dit is gezond" maar de tekst zegt "Dit bevat gif", dan vangt hij die tegenstrijdigheid direct op.

Waarom is dit belangrijk?

Vroeger waren de filters ofwel te streng (ze blokkeerden alles) of te slap (ze lieten alles door). BLM-Guard is als een slimme, eerlijke bouncer bij een club:

Hij ziet subtiele trucjes die anderen missen.
Hij kan uitleggen waarom iemand de deur uit wordt gezet (niet zomaar "weg!", maar "omdat je belooft dat je gratis geld krijgt, wat niet mag").
Hij past zich snel aan als de regels van de club veranderen.

Kortom: BLM-Guard is een slimme tool die korte video-reclames controleert door te kijken, te luisteren, te lezen en vooral te denken, zodat we een veilige en eerlijke markt houden voor iedereen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Met de opkomst van generatieve AI en de groei van kortvideo-platforms (zoals TikTok en Instagram Reels) is het creëren van multimodale reclamecontent goedkoper en sneller geworden. Dit brengt echter nieuwe uitdagingen met zich mee voor contentmoderatie:

Subtiliteit en Complexiteit: In tegenstelling tot algemene veiligheidsfilters (gericht op geweld of naaktheid), vereist reclamemoderatie fijnmazige, beleidsgestuurde controles. Overtredingen zijn vaak subtiel, zoals overdreven claims, misleidende cues, of het omzeilen van regels.
Modale Misalignments: Veel problemen ontstaan door inconsistente informatie tussen verschillende modaliteiten (bijv. visueel waarheidsgetrouwe beelden met misleidende audio, of ondertitels die niet overeenkomen met de gesproken tekst).
Beperkingen van Bestaande Methoden: Bestaande oplossingen, zoals statische regelgebaseerde filters of algemene Vision-Language Models (VLMs), kampen met drie tekortkomingen: beperkte oorzakelijke redenering over modaliteiten heen, slechte aanpassing aan veranderende beleidsregels (policy drift), en gebrek aan taakspecifiek redeneren voor commerciële risico's.

Methodologie: BLM-Guard

BLM-Guard is een kader voor contentaudit dat Chain-of-Thought (CoT) redenering combineert met regelgebaseerde principes en criticus-gestuurde beloningen. De aanpak bestaat uit een tweestaps-pipeline:

1. Cold Start: Regelgeleide Causale Supervisie (SFT)

Om het model een goede startpositie te geven, wordt een gestructureerde dataset gegenereerd via een Interleaved-modal Chain-of-Thought (ICoT)-pipeline:

Data Synthese: Een regelgedreven proces genereert gestructureerde scènebeschrijvingen, redeneerketens en labels, wat de kosten voor annotatie verlaagt.
Selectie van Sleutelframes: Er wordt een adaptieve strategie (AKS) gebruikt om de meest relevante frames en visuele regio's te selecteren op basis van risicoprompts (bijv. "valse marketing").
Gestructureerde Redenering: Het model (InternVL) wordt getraind om een redeneertraject te volgen: Observatie → Risicoscreening → Oorzakelijke Analyse → Eindoordeel.
Supervised Fine-Tuning (SFT): Het basis-VLM wordt gefinetuned met een verliesfunctie die niet alleen de juiste classificatie beloont, maar ook de redeneerlogica aligneert met een vooraf gedefinieerde regelverdeling (via een KL-divergentie-term).

2. Versterkingslering: Zelf-adaptieve GRPO

Na de SFT-fase wordt Reinforcement Learning (RL) toegepast om het model verder te verfijnen en aan te passen aan veranderende risico's:

Hybride Beloningsfunctie: De beloning ( $r$ $r$ ) bestaat uit drie componenten:
1. Regelgebaseerde Beloning ( $r_{rule}$ ): Controleert of de voorspelde overtredingsscène en -type overeenkomen met de grondwaarheid.
2. Formaatbewuste Beloning ( $r_{format}$ ): Zorgt voor een correcte outputstructuur (tags voor redenering en antwoord).
3. SCA-R (Self-Consistency and Adaptive Reward): Een dynamische beloning waarbij een "gidsmodel" de redenering beoordeelt op causaliteit en beleidsalignering. Dit lost het probleem van beleidsdrift op.
Policy Optimization: Het model wordt geoptimaliseerd met Group Relative Policy Optimization (GRPO). Dit algoritme gebruikt token-niveau normalisatie en dynamische sampling om de stabiliteit te vergroten en de efficiëntie van het leren te maximaliseren.

Belangrijkste Bijdragen

BLM-Guard Benchmark: Een nieuw, real-world dataset van kortvideo-reclames, geannoteerd met een hiërarchisch risicotaxonomie (Drie niveaus: Ernst, Scène, Overtredingstype). Dit bevat gestructureerde redeneertraces voor interpretatie.
BLM-Guard Framework: Een multimodaal moderatiekader dat ICoT-redenering, consistentiebewuste versterkingslering en multi-task modellering combineert. Het is specifiek ontworpen om zowel intra-modale manipulaties (overdrijving) als cross-modale mismatches te detecteren.
Uitgebreide Evaluatie: Het paper introduceert een robuuste evaluatiemethode die niet alleen nauwkeurigheid meet, maar ook de consistentie van de redenering en de generalisatievermogen op onbekende beleidsgebieden.

Resultaten

Experimenten op de BLM-Guard Benchmark en bestaande publieke datasets tonen aan dat BLM-Guard superieur presteert aan state-of-the-art baselines (zoals LLaVA-Next, InternVL3, en QwenGuard):

Nauwkeurigheid: BLM-Guard bereikt een Strict Accuracy van 91,4% (tegenover ~70% bij de beste concurrenten) en een Wide Accuracy van 96,2%.
Consistentie: Het model scoort significant hoger op "Reasoning Consistency" (0,845), wat aangeeft dat de redenering logisch en in lijn is met de beleidsregels.
Generalisatie: Het model toont sterke prestaties op externe datasets (zoals FakeSV en XD-Violence), wat bewijst dat het goed kan generaliseren naar nieuwe soorten misleidende content en beleidsregels.
Ablatiestudies: De studie bevestigt dat de combinatie van regelgeleide SFT en SCA-R-gestuurde RL essentieel is voor de uiteindelijke prestaties; geen enkele component alleen levert vergelijkbare resultaten op.

Significantie

BLM-Guard vertegenwoordigt een belangrijke stap voorwaarts in de beveiliging van commerciële content. Door de integratie van uitlegbare redenering (CoT) met beleidsgeoriënteerde versterkingslering, biedt het platformen een oplossing die niet alleen wat er mis is detecteert, maar ook waarom, in overeenstemming met complexe en veranderende marketingregels. Dit is cruciaal voor het handhaven van vertrouwen op platforms waar misleidende reclame direct gevolgen heeft voor consumenten en merken. De release van de benchmark en het framework stelt de gemeenschap in staat om beleidsgevoelige moderatie systematisch te evalueren en verbeteren.

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

1. De "Denk-stap" (Chain-of-Thought)

2. De "Regelboekjes" (Policy-Aligned Rewards)

3. De "Oog-oor-coördinatie" (Multimodal)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: BLM-Guard

1. Cold Start: Regelgeleide Causale Supervisie (SFT)

2. Versterkingslering: Zelf-adaptieve GRPO

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation