MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Cette recherche propose MUTEX, un cadre combinant le transformateur multilingue XLM-RoBERTa et des champs aléatoires conditionnels (CRF) pour détecter avec succès des spans toxiques au niveau des tokens dans la langue ourdoue, atteignant un score F1 de 60 % et constituant la première référence supervisée pour cette tâche.

Inayat Arshad, Fajar Saleem, Ijaz Hussain

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : La Tempête de Toxines en Urdu

Imaginez que les réseaux sociaux (comme Twitter, YouTube ou Instagram) sont une immense place publique où des millions de personnes parlent ourdou, la langue de plus de 170 millions de personnes au Pakistan. C'est une langue magnifique, riche et complexe, comme un jardin rempli de fleurs aux formes bizarres (la morphologie) et qui change souvent de costume (le code-switching, c'est-à-dire mélanger l'ourdou et l'anglais dans une même phrase).

Le problème ? Sur cette place publique, il y a des gens qui crient des insultes, des menaces ou du harcèlement. Jusqu'à présent, les "gardiens" (les logiciels de modération) étaient un peu bêtes : ils regardaient un message entier et disaient : "Oh, ce message est toxique, je le supprime tout entier."

C'est comme si, pour arrêter un voleur dans une maison, vous brûliez toute la maison. Vous supprimez aussi les bonnes choses, les blagues innocentes, et vous ne savez pas exactement quelle phrase était le problème. De plus, ces gardiens ne comprenaient pas bien l'ourdou à cause de ses particularités (écriture différente, mélange de langues, etc.).

🛠️ La Solution : MUTEX et URTOX

Les chercheurs de l'Institut PIEAS au Pakistan ont créé deux choses magiques pour régler ce problème :

1. URTOX : Le Dictionnaire des "Mots Méchants"

Imaginez que vous voulez apprendre à un enfant à reconnaître les fruits pourris. Vous ne pouvez pas lui donner un livre théorique ; vous devez lui montrer des milliers de vrais fruits et lui dire : "Celui-ci est pourri, celui-ci est bon."

URTOX est exactement cela : c'est un immense cahier de 14 342 exemples réels de messages (venant de réseaux sociaux, de journaux, de vidéos YouTube) où des humains ont soigneusement surligné exactement quels mots étaient toxiques. C'est la première fois qu'on fait cela pour l'ourdou avec une telle précision. C'est comme donner une carte au trésor aux robots pour qu'ils sachent où chercher les "mauvaises herbes".

2. MUTEX : Le Détective à Loupe

Maintenant, comment utiliser ce cahier ? Les chercheurs ont construit MUTEX, un système d'intelligence artificielle qui agit comme un détective à la loupe.

  • Avant : Le logiciel regardait le message entier et disait "Toxique" ou "Pas toxique".
  • Avec MUTEX : Le logiciel lit chaque mot un par un. Il pointe son doigt et dit : "Attends, le mot 'stupide' est toxique, mais le mot 'ami' qui suit est innocent. Je vais juste masquer 'stupide' et laisser le reste."

C'est comme si, au lieu de jeter un gâteau entier parce qu'il y a un insecte dedans, vous enleviez juste l'insecte avec une pince à épiler.

🧠 Comment ça marche ? (L'analogie du Chef et du Contrôleur)

Pour que ce détective soit efficace, ils ont utilisé une recette spéciale :

  1. Le Chef (XLM-RoBERTa) : C'est un cerveau d'IA très intelligent qui a lu des livres dans 100 langues. Il comprend le contexte. Il sait que le mot "tu es fou" peut être une insulte ou une blague entre amis selon le ton.
  2. Le Contrôleur (CRF) : C'est un garde du corps très strict. Même si le Chef pense qu'un mot est toxique, le Contrôleur vérifie si cela a du sens dans la phrase. Par exemple, si le Chef dit que le mot "est" est toxique, le Contrôleur dit : "Non, ça ne peut pas être toxif tout seul, il doit être collé au mot 'stupide' qui vient avant."
    • Ensemble, ils forment une équipe imbattable qui évite les erreurs de logique.

🎨 Pourquoi c'est génial ? (L'Explicabilité)

Le plus beau dans MUTEX, c'est qu'il n'est pas une "boîte noire". Si vous demandez au logiciel : "Pourquoi as-tu supprimé ce mot ?", il peut vous montrer exactement sur quel mot il s'est appuyé pour prendre sa décision, en coloriant le texte.

C'est comme si le détective vous montrait ses preuves : "J'ai supprimé ce mot parce que c'est un insulte directe, et voici la preuve." Cela permet aux humains de faire confiance à la machine et de corriger les erreurs si besoin.

📊 Les Résultats : Une Victoire pour la Langue Ourdou

Les chercheurs ont testé leur système sur des milliers de messages réels.

  • Le score : Ils ont obtenu un score de 60%. C'est le premier score de référence pour l'ourdou !
  • La comparaison : C'est un peu moins performant que les systèmes pour l'anglais (qui font environ 65-70%), mais c'est normal. L'anglais est une langue "riche" en données (beaucoup de livres numériques), tandis que l'ourdou est une langue "pauvre" en données numériques.
  • L'astuce : Le système a appris à gérer les mélanges de langues (ourdou + anglais) et les écritures différentes (l'écriture traditionnelle Nastaliq et l'écriture latine sur les claviers mobiles), ce qui est un défi énorme.

🚀 En Résumé

Ce papier nous dit : "Nous avons enfin créé les outils pour nettoyer la place publique de l'ourdou sans casser les maisons."

Grâce à URTOX (la carte des mots méchants) et MUTEX (le détective intelligent), nous pouvons maintenant :

  1. Identifier les insultes précises au lieu de supprimer tout un message.
  2. Expliquer pourquoi un message est dangereux.
  3. Protéger les 170 millions de locuteurs d'ourdou contre le harcèlement en ligne, tout en respectant la richesse et la complexité de leur langue.

C'est une étape majeure pour rendre internet plus sûr et plus juste pour les langues qui ont été longtemps ignorées par la technologie.