Are LLMs Ready to Replace Bangla Annotators?

Cette étude démontre que les grands modèles de langage ne sont pas encore prêts à remplacer les annotateurs humains pour la détection de discours haineux en bengali, révélant des biais significatifs et une instabilité des jugements qui ne s'améliorent pas nécessairement avec l'échelle du modèle.

Md. Najib Hasan, Touseef Hasan, Souvika Sarkar

Publié 2026-03-03
📖 3 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Titre : Les robots intelligents peuvent-ils remplacer les humains pour le bengali ?

Imaginez que vous devez trier une immense montagne de lettres écrites en bengali. Certaines sont gentilles, d'autres sont méchantes (des insultes ou du harcèlement). Votre travail est de mettre une étiquette « méchant » ou « gentil » sur chaque lettre. C'est un travail épuisant et difficile, même pour des humains, car le bengali est une langue riche et complexe, et parfois, ce qui semble méchant pour l'un, ne l'est pas pour l'autre.

Jusqu'à présent, on engageait des humains pour faire ce tri. Mais aujourd'hui, on se demande : « Pourquoi ne pas utiliser des robots super-intelligents (les IA) pour le faire à notre place ? » Ils sont rapides, ne dorment jamais et coûtent moins cher.

C'est exactement ce que les auteurs de cette étude ont voulu vérifier. Ils ont pris 17 robots différents (des modèles d'intelligence de tailles variées) et leur ont demandé de trier ces lettres en bengali, sans aucune formation préalable (comme si on leur donnait le travail du jour même).

Voici ce qu'ils ont découvert, avec quelques images pour mieux comprendre :

  1. Les robots ne sont pas des arbitres objectifs :
    Imaginez un juge de tribunal qui change d'avis selon son humeur du matin. Les robots se comportent un peu comme ça. Parfois, ils disent qu'une phrase est méchante, et cinq minutes plus tard, ils disent que c'est gentil. Ils sont instables. De plus, ils ont leurs propres « préjugés », un peu comme des humains qui jugent trop vite.

  2. La taille n'est pas tout :
    On pensait naturellement que le robot le plus gros et le plus puissant (le « géant ») serait le meilleur juge. C'est comme croire que le camion le plus lourd transporte toujours le meilleur chargement.
    La surprise ? Non ! Souvent, les petits robots, ceux qui sont plus spécialisés et plus agiles, font un travail plus cohérent et plus fiable que les géants. La taille ne garantit pas la qualité ici.

  3. Le danger du Bengali :
    Le bengali est une langue où les nuances sont très importantes (un peu comme le français, où « tu es fou » peut être une insulte ou une blague entre amis). Les robots ont du mal à saisir ces nuances culturelles. Si on les laisse faire ce travail seuls, ils risquent de mettre de mauvaises étiquettes, ce qui pourrait créer de gros problèmes plus tard.

En résumé :
Cette étude nous dit : « Attention, ne confiez pas tout le travail de tri à des robots, surtout pour des langues comme le bengali et des sujets sensibles comme les insultes. »

Les robots sont de super outils pour aider les humains, mais ils ne sont pas encore prêts à remplacer les annotateurs humains. Ils sont trop imprévisibles et parfois biaisés. Avant de les laisser travailler seuls, il faut les tester très soigneusement, un peu comme on testerait un nouveau pilote avant de lui confier un avion rempli de passagers.