BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les réseaux sociaux de vidéos courtes (comme TikTok ou les Reels) sont devenus d'immenses places de marché animées. Tout le monde y vend quelque chose : des téléphones, des thés, des cours, etc. Le problème ? Certains vendeurs sont malhonnêtes. Ils utilisent des images trompeuses, des promesses impossibles ("gagnez 1 million en une nuit !") ou des discours qui contredisent ce qu'on voit à l'écran.

Traditionnellement, les gardiens de ces places de marché (les modérateurs) utilisaient soit des règles rigides (comme un portier qui vérifie une liste noire), soit des robots très intelligents mais un peu "bavards" qui ne comprennent pas toujours les nuances.

BLM-Guard, c'est le nouveau gardien de sécurité proposé par les chercheurs de Kuaishou. Voici comment il fonctionne, expliqué simplement avec des images :

1. Le Problème : Le Vendeur Astucieux

Les publicités modernes sont complexes. Une vidéo peut montrer un téléphone magnifique (visuel) mais la voix off (audio) peut dire "c'est gratuit" alors que le texte en bas dit "payez maintenant".

L'ancien gardien (les filtres classiques) : Il voit le téléphone, il ne voit pas le mensonge dans la voix. Il laisse passer.
Le robot générique : Il voit tout, mais il ne sait pas pourquoi c'est interdit selon les règles spécifiques de la plateforme. Il est trop généraliste.

2. La Solution : BLM-Guard, le Détective Formé

BLM-Guard n'est pas juste un robot qui regarde ; c'est un détective qui réfléchit avant de juger. Il utilise trois super-pouvoirs :

A. La "Chaîne de Pensée" (Le Carnet de Notes du Détective)

Au lieu de dire simplement "C'est interdit", BLM-Guard écrit son enquête étape par étape, comme un détective dans un roman policier :

Observation : "Je vois un téléphone dans la main du vendeur."
Analyse : "La voix dit 'C'est gratuit', mais le texte dit '5000 yuans'."
Déduction : "Il y a un mensonge entre ce qu'on entend et ce qu'on lit."
Verdict : "C'est une publicité trompeuse."

Cette méthode permet de comprendre le pourquoi d'une décision, pas juste le résultat.

B. L'Entraînement par les Règles (Le Manuel de l'Inspecteur)

Avant de laisser le détective travailler seul, on lui donne un manuel de formation très strict.

L'analogie : Imaginez un apprenti policier qui doit apprendre le code de la route par cœur avant de prendre la route.
Comment ça marche : Les chercheurs ont créé des milliers d'exemples de publicités (réelles ou simulées) et ont écrit pour chacune la "bonne" explication. Le robot apprend à associer une image à une règle précise (ex: "Si on promet un gain facile sans effort, c'est interdit"). Cela lui évite de faire des erreurs au début.

C. L'Entraînement par Récompense (Le Coach Sportif)

Une fois que le détective a lu le manuel, il commence à travailler, mais il a un coach qui le corrige en temps réel.

Le système de points : Si le robot trouve la bonne infraction et explique bien pourquoi, il gagne des points. S'il se trompe ou si son explication est floue, il perd des points.
L'adaptation : Les règles changent souvent (ce qui était toléré hier ne l'est plus aujourd'hui). BLM-Guard s'adapte dynamiquement. Si le coach lui dit "Attention, la règle sur les promesses de santé a changé", le robot ajuste sa stratégie immédiatement pour rester aligné avec la nouvelle politique.

3. Le Résultat : Un Gardien Infaillible

Grâce à cette méthode, BLM-Guard est devenu bien meilleur que ses concurrents :

Il ne rate rien : Il détecte les mensonges subtils (comme un texte qui contredit la voix).
Il est juste : Il ne bloque pas les publicités honnêtes par erreur.
Il s'explique : Si on lui demande pourquoi il a bloqué une vidéo, il peut vous dire exactement quelle règle a été enfreinte et où se trouve le problème.

En Résumé

Imaginez que vous avez un inspecteur de police (BLM-Guard) qui a lu tout le code pénal (les règles), qui tient un carnet de notes détaillé (la chaîne de pensée) pour expliquer ses décisions, et qui est entraîné par un coach qui le félicite quand il a raison et le corrige quand il se trompe.

C'est exactement ce que fait ce système pour nettoyer les publicités sur les réseaux sociaux : il rend la place de marché plus sûre, plus honnête et plus transparente pour tout le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'essor des plateformes de vidéos courtes (comme TikTok, Instagram Reels) et de l'IA générative a facilité la création de publicités multimodales (visuel, parole, sous-titres). Cependant, la modération de ces contenus présente des défis uniques par rapport à la sécurité communautaire générale :

Nuance et subtilité : Les violations publicitaires sont souvent déguisées (ex. : promesses exagérées, discours trompeurs, évasion des règles) plutôt que des risques grossiers comme la violence ou la nudité.
Désalignement multimodal : Les infractions surviennent fréquemment dans les incohérences entre les modes (ex. : un visuel inoffensif avec un discours trompeur, ou des sous-titres ne correspondant pas à l'audio).
Limites des approches actuelles : Les filtres basés sur des règles statiques manquent de flexibilité, tandis que les modèles vision-langage (VLM) génériques peinent à effectuer un raisonnement causal inter-modal et à s'adapter aux dérives des politiques de régulation.

2. Méthodologie : BLM-Guard

L'article propose BLM-Guard, un cadre de modération conçu pour être explicable et aligné sur les politiques. L'approche repose sur une architecture en deux étapes et une nouvelle méthodologie d'apprentissage.

A. Architecture et Pipeline de Données

Benchmark BLM-Guard : Les auteurs ont créé un jeu de données réel annoté avec une taxonomie à trois niveaux :
1. Gravité : Haute, Moyenne, Faible.
2. Scénario : Contenu illégal, marketing faux, opérations trompeuses, etc.
3. Type de violation : Exagération des revenus, fuite de vie privée, superstition féodale, etc.
Pipeline de Synthèse de Données (ICoT) : Pour réduire les coûts d'annotation, un pipeline basé sur des règles génère automatiquement des chaînes de raisonnement (Chain-of-Thought) structurées. Il sélectionne des images clés et des régions pertinentes via une similarité sémantique (CLIP) et une stratégie adaptative, puis utilise un modèle VLM (InternVL) pour générer des descriptions visuelles, des transcriptions ASR et des traces de raisonnement intercalées (Interleaved-modal Chain-of-Thought).

B. Stratégie d'Entraînement en Deux Étapes

Phase 1 : SFT Guidé par les Règles (Cold Start)
- Un Fine-Tuning Supervisé (SFT) est effectué sur un modèle de base (Qwen2.5-VL-7B).
- L'objectif utilise une perte croisée sur la réponse finale et une pénalité KL pour aligner la distribution de raisonnement du modèle sur une distribution prior guidée par les règles (mots-clés de violation). Cela injecte des compétences de raisonnement causal et des priors politiques dès le départ.
Phase 2 : Optimisation par Renforcement (RL) Adaptatif
- Utilisation de l'algorithme GRPO (Group Relative Policy Optimization) pour affiner le modèle.
- Conception de la Récompense Hybride : La récompense totale $r$ $r$ combine trois composantes :
  - $r_{rule}$ : Exactitude factuelle (correspondance scène/violation avec la vérité terrain).
  - $r_{format}$ : Respect de la structure de sortie (balises <answer> et <thought>).
  - $r_{scaR}$ (Self-Consistency and Adaptive Reward) : Une récompense guidée par un modèle critique qui évalue la cohérence du raisonnement et l'alignement avec les principes de sécurité, permettant de s'adapter aux changements de politiques.
- Normalisation au niveau des tokens : Contrairement au GRPO standard, la normalisation se fait au niveau des tokens pour atténuer les biais liés à la longueur de la sortie.

3. Contributions Clés

BLM-Guard Benchmark : Un jeu de données public réel pour la modération publicitaire, structuré autour de scénarios de risque et de types de violations fines, permettant une évaluation alignée sur les politiques.
Cadre BLM-Guard : Une architecture multimodale innovante combinant :
- Un pipeline ICoT (Interleaved-modal Chain-of-Thought) pour des décisions explicites.
- Un apprentissage par renforcement GRPO avec des récompenses hybrides (règles + cohérence).
- Une modélisation multitâche pour détecter à la fois les manipulations intra-modales et les désalignements inter-modaux.
Stratégie de Synthèse de Données : Une méthode efficace pour générer des données d'entraînement structurées (images clés, régions, chaînes de raisonnement) sans annotation manuelle massive.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark BLM-Guard et cinq jeux de données publics (LSPD, XD-Violence, etc.).

Performance Supérieure : BLM-Guard surpasse tous les modèles de base (y compris LLaVA-Next, InternVL3, QwenGuard, Kimi-VL) en termes de :
- Précision globale : 96,2 % (vs ~70-80 % pour les meilleurs baselines).
- Précision stricte : 91,4 %.
- Cohérence du raisonnement : Score de 0,845 (mesuré par un guide GPT-4o), indiquant une capacité bien supérieure à justifier ses décisions de manière logique et alignée.
Généralisation : Le modèle démontre une robustesse exceptionnelle sur des scénarios non vus et des jeux de données publics, en particulier pour la détection de désinformation et d'incohérences multimodales.
Étude Ablative : L'ablation montre que la combinaison du SFT guidé par les règles et du RL avec la récompense SCA-R est cruciale. Le SFT seul améliore l'interprétabilité, tandis que le RL affine la précision et la robustesse.

5. Signification et Impact

BLM-Guard représente une avancée significative pour la modération de contenu commercial :

Explicabilité : En forçant le modèle à générer une chaîne de raisonnement structurée avant la décision, le système devient transparent, ce qui est essentiel pour la conformité réglementaire et l'audit humain.
Adaptabilité aux Politiques : L'utilisation de récompenses dynamiques et de principes auto-adaptatifs permet au modèle de s'ajuster aux évolutions des règles de plateforme sans nécessiter un réentraînement complet.
Efficacité Multimodale : La capacité à détecter les subtilités (ex. : exagération verbale vs réalité visuelle) comble le fossé entre les filtres traditionnels et les besoins complexes de la publicité moderne.

En résumé, BLM-Guard établit un nouvel état de l'art pour la modération de publicités vidéo courtes, offrant un équilibre optimal entre précision, robustesse et transparence décisionnelle.