ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Détective qui ne fait que dire "Oui" ou "Non"

Imaginez que vous travaillez dans une grande ville (Internet) et que vous devez surveiller les panneaux d'affichage (les mèmes) pour repérer ceux qui sont méchants ou haineux.

Jusqu'à présent, les systèmes automatiques étaient comme des vigiles très rapides mais très bêtes. Ils regardaient une image, disaient "Oui, c'est méchant" ou "Non, c'est gentil", et c'était tout.

Le souci ? Si un humain (un modérateur) reçoit un panneau "Méchant", il a besoin de savoir pourquoi. Est-ce que c'est une insulte raciale ? Est-ce que c'est une moquerie sur un handicap ? Sans cette explication, le vigile ne peut pas agir correctement, et les gens ne comprennent pas pourquoi leur contenu a été bloqué.

Les chercheurs ont essayé de créer des systèmes qui expliquent d'abord leur raisonnement (comme un détective qui écrit son rapport avant de donner son verdict). Mais jusqu'à présent, ces systèmes étaient moins performants que les vigiles bêtes : ils se trompaient plus souvent et leurs explications étaient confuses.

🚀 La Solution : ExPO-HM (Le Nouveau Super-Détective)

Les auteurs de cet article ont créé ExPO-HM. C'est un nouveau système qui apprend à expliquer avant de détecter. Pour y arriver, ils ont copié la méthode utilisée pour former les humains qui modèrent les réseaux sociaux.

Voici comment ils ont fait, étape par étape, avec des analogies :

1. L'Entraînement avec le "Manuel de Police" (SFT-PM)

Imaginez qu'on embauche un nouveau policier. On ne lui montre pas juste des photos de crimes et on ne lui dit pas "C'est un crime".

Ce qu'on fait avec ExPO-HM : On lui donne d'abord le Code de la Route (le manuel de modération). On lui apprend par cœur les règles : "Si quelqu'un insulte un groupe, c'est interdit", "Si on déshumanise quelqu'un, c'est interdit".
L'analogie : Au lieu de deviner, le système apprend la théorie avant de pratiquer. Cela lui donne une base solide pour comprendre quoi chercher.

2. L'Entraînement Progressif (Curriculum Learning)

On ne lance pas un débutant dans une bagarre de rue tout de suite.

Ce qu'on fait avec ExPO-HM : On commence par des exercices simples. D'abord, on lui fait identifier des catégories précises (ex: "C'est une attaque contre une religion ?"). Une fois qu'il est bon là-dessus, on lui demande de faire le verdict final (Haineux ou Non).
L'analogie : C'est comme apprendre à nager. D'abord, on s'entraîne dans le bain pour enfants (les catégories précises), puis on passe au grand bain (le verdict final). Cela évite que le système ne se noie dans la complexité.

3. Le "Juge Intérieur" (La Récompense CDE)

C'est la partie la plus intelligente. Dans l'entraînement par renforcement (une méthode où le système apprend par essais-erreurs), on doit lui donner des points.

Le problème habituel : On donne des points juste si la réponse est bonne (Oui/Non). Mais le système peut deviner au hasard et avoir raison, sans vraiment comprendre.
La solution ExPO-HM : Ils ont inventé un outil appelé Entropie Décisionnelle Conditionnelle (CDE).
- L'analogie : Imaginez un professeur qui note non seulement la réponse, mais aussi la confiance de l'élève.
  - Si l'élève dit "C'est méchant !" avec une explication claire et qu'il a raison -> Super note !
  - Si l'élève dit "C'est méchant !" avec une explication floue et qu'il a tort -> Mauvaise note.
  - Si l'élève dit "Je ne sais pas trop" (explication floue) et qu'il a tort -> Note moyenne (c'est acceptable d'être incertain).
- Cela force le système à être sûr de lui seulement quand il a de bonnes raisons, et à rester prudent quand il est perdu.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à cette méthode, ExPO-HM bat tous les records précédents :

Il est plus précis : Il se trompe moins souvent que les anciens systèmes.
Il explique mieux : Ses raisons sont claires, logiques et utiles pour les humains.
Il est plus fiable : Il ne panique pas. Il sait quand il est sûr de lui et quand il doit hésiter.

🎯 En Résumé

Avant, les IA pour détecter la haine étaient comme des détecteurs de fumée : ils sonnaient l'alarme, mais ne vous disaient pas si c'était un incendie ou juste un toast brûlé.

ExPO-HM, c'est comme un pompier expert. Il ne sonne pas l'alarme au hasard. Il examine la situation, lit le manuel de sécurité, analyse la fumée, et vous dit : "Attention, c'est un incendie (haine) parce que cette personne insulte un groupe spécifique. Voici pourquoi."

C'est un pas de géant pour rendre Internet plus sûr, car cela aide les humains à mieux comprendre et à mieux modérer les contenus toxiques, au lieu de se fier à des aveugles qui crient "Feu !" tout le temps.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection automatique des mèmes haineux (images combinées à du texte) est un défi majeur pour la modération de contenu en ligne. Les approches existantes reposent principalement sur une détection directe, produisant uniquement une prédiction binaire (haineux vs bénin). Bien que performantes pour le classement, ces modèles échouent à fournir les explications contextuelles nécessaires aux modérateurs humains pour comprendre pourquoi un contenu est haineux (type d'attaque, groupe cible visé).

Des méthodes récentes tentent d'adopter une approche "Expliquer puis Détecter" (Explain-Then-Detect) en utilisant des modèles de langage multimodaux (LMM) avec des techniques comme le Chain-of-Thought (CoT) ou des agents. Cependant, l'analyse des auteurs révèle deux échecs critiques de ces systèmes :

Absence de hypothèses pertinentes : Les modèles ne génèrent pas d'explications identifiant correctement les politiques violées ou les cibles d'attaque.
Signal de récompense insuffisant : Les méthodes d'apprentissage par renforcement (comme GRPO) utilisant une récompense binaire (juste/mauvais) ne parviennent pas à guider efficacement le processus de raisonnement, conduisant souvent à des performances inférieures aux simples modèles Supervised Fine-Tuning (SFT).

2. Méthodologie : ExPO-HM

Les auteurs proposent ExPO-HM (Explain-then-Detect Policy Optimization for Hateful Memes), un cadre d'entraînement inspiré du processus de formation et d'évaluation des annotateurs humains. La méthode se compose de trois piliers principaux :

A. Warmup SFT sur des Manuels de Politique Structurés (SFT-PM)

Au lieu d'entraîner directement sur des étiquettes binaires, le modèle est d'abord fine-tuné (SFT) en utilisant des manuels de politique dérivés des lignes directrices d'annotation des jeux de données.

Les étiquettes fines (types d'attaque, groupes protégés) sont converties en instructions structurées (liste à puces).
Cela permet au modèle d'apprendre à aligner ses décisions avec des règles de modération explicites avant d'aborder la classification binaire.

B. Apprentissage par Curriculum avec GRPO (GRPO-CL)

Une fois le warmup terminé, le modèle subit un entraînement par Optimisation de la Politique Relative de Groupe (GRPO) avec une stratégie de curriculum :

Phase 1 (50% des étapes) : Entraînement uniquement sur des données à étiquettes fines pour encourager l'exploration de raisonnements diversifiés et la compréhension des politiques.
Phase 2 (50% des étapes) : Mélange équilibré (50/50) de données fines et binaires pour affiner la capacité de décision finale.
Cette approche imite la progression humaine : comprendre les catégories spécifiques avant de prendre une décision globale.

C. Récompense basée sur l'Entropie Décisionnelle Conditionnelle (CDE)

C'est l'innovation centrale pour améliorer la qualité du raisonnement. Les auteurs introduisent la Conditional Decision Entropy (CDE) comme métrique et signal de récompense.

Principe : Une bonne explication doit mener à une décision précise et confiante. Une mauvaise explication entraîne de la confusion.
Calcul : $H(d | e, x)$ , l'entropie de la décision $d$ conditionnée à l'explication générée $e$ .
Signal de Récompense ( $r_{CDE}$ ) :
- Récompense forte pour une décision correcte et confiante (faible entropie).
- Pénalité pour une décision erronée mais confiante (faible entropie mais mauvaise prédiction).
- Tolérance pour l'incertitude lorsque la prédiction est fausse.
  Ce mécanisme force le modèle à ne pas être confiant s'il n'est pas sûr, améliorant ainsi la calibration et la qualité du raisonnement.

3. Contributions Clés

Paradigme : Première méthode "Expliquer puis Détecter" surpassant la détection directe, offrant une compréhension à la fois précise et interprétable.
Méthodologie : Combinaison inédite de SFT sur manuels de politique, de curriculum learning avec GRPO, et d'une récompense basée sur l'entropie (CDE).
Évaluation : Mise en place d'une évaluation complète incluant la classification binaire, la classification fine (types d'attaque, cibles) et la qualité du raisonnement (jugée par LLM et humains).
Résultats : Établissement de nouveaux états de l'art (SOTA) sur trois benchmarks majeurs.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données : HatefulMemes, MAMI et PrideMM, en utilisant les modèles Qwen2.5-VL (3B et 7B).

Performance de Détection : ExPO-HM surpasse significativement les baselines (SFT, DPO, GRPO standard) et les systèmes précédents (RA-HMD, LOREHM, U-CoT+).
- Amélioration de 15% du F1 par rapport à GRPO et 17% par rapport à DPO sur les tâches binaires.
- Gain massif sur la classification fine (ex: +14.4% sur le type d'attaque HatefulMemes).
Qualité du Raisonnement :
- Score LLM-as-a-judge augmenté de 5.2 (GRPO) à 6.2 (ExPO-HM) sur HatefulMemes.
- Réduction drastique de l'entropie décisionnelle (CDE), passant de 0.26 à 0.026, indiquant des raisonnements plus tranchés et précis.
Calibration : ExPO-HM améliore considérablement la calibration des probabilités (réduction du score Brier de 0.590 à 0.283 pour le modèle 3B), signifiant que le modèle est plus confiant lorsqu'il a raison.
Évaluation Humaine : Les explications générées par ExPO-HM obtiennent un score de cohérence de 100% (contre 96% pour GRPO) et une meilleure note d'utilité (2.2/4 vs 1.6/4).

5. Signification et Impact

Ce travail démontre que l'ajout simple d'explications via des prompts CoT standards dégrade souvent les performances de classification. En revanche, en structurant l'apprentissage (via des manuels de politique) et en optimisant la qualité du raisonnement (via la récompense CDE), il est possible de créer des systèmes qui ne se contentent pas de détecter, mais qui expliquent efficacement.

ExPO-HM fournit un support de modération actionnable et interprétable, réduisant la charge cognitive des modérateurs humains et améliorant la sécurité des plateformes sociales. La méthode ouvre la voie à des systèmes d'IA plus robustes pour la gestion de contenu sensible, en alignant le processus de raisonnement de l'IA sur les protocoles humains de modération.

Le code est disponible publiquement sur GitHub.