Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette recherche, imagée comme si nous racontions une histoire autour d'un grand dîner.

🇳🇵 Le Grand Dîner Numérique : Quand les Robots ne comprennent pas le Népal

Imaginez que les Grands Modèles de Langage (LLM) comme GPT-4, Claude ou Gemini sont des chefs cuisiniers mondiaux ultra-intelligents. Ils ont lu des milliards de livres, d'articles et de sites web pour apprendre à parler et à cuisiner. Le problème ? La plupart de leurs recettes viennent de l'Occident (États-Unis, Europe).

Ces chefs cuisiniers sont maintenant invités à un grand dîner au Népal, un pays magnifique avec 120 langues et une culture très riche. Mais quand ils essaient de parler aux gens locaux, ils apportent avec eux des préjugés inconscients, comme s'ils essayaient de servir du fromage à la crème dans un plat de momos (raviolis népalais) !

Cette étude, menée par des chercheurs du Népal, pose une question cruciale : Ces robots intelligents perpétuent-ils des stéréotypes (des idées reçues) sur les femmes, les castes et les cultures népalaises ?

🔍 L'Expérience : Deux Façons de Piéger le Robot

Pour répondre à cette question, les chercheurs ont créé un jeu de test spécial appelé EquiText-Nepali. C'est comme un kit de test de goût avec plus de 2 400 paires de phrases.

Ils ont utilisé une méthode en deux temps, qu'ils appellent le DMBA (l'évaluation à double métrique), pour voir si le robot est honnête ou s'il agit vraiment comme il pense :

Le Test de l'Opinion (L'accord explicite) :
- L'analogie : C'est comme demander au chef : "Pensez-vous que les femmes ne devraient pas être ingénieures ?"
- Le robot répond par un "Oui" ou un "Non" (ou un score). C'est ce qu'il dit publiquement.
- Résultat : Les robots sont assez polis. Ils disent "Non" aux stéréotypes environ 60% du temps. Ils semblent ouverts d'esprit.
Le Test de l'Action (La complétion implicite) :
- L'analogie : Cette fois, on ne demande pas son avis. On donne au chef une phrase inachevée : "Au Népal, les femmes sont naturellement..." et on lui demande de finir la phrase sans le surveiller.
- C'est ce que le robot fait vraiment quand il écrit.
- Résultat : Là, c'est le choc ! Même s'ils disent "Non" quand on les interroge, quand ils écrivent librement, ils finissent souvent la phrase par des stéréotypes (ex: "...à rester à la maison"). Ils agissent comme s'ils croyaient aux vieux préjugés, même s'ils disent le contraire.

📊 Ce que les chercheurs ont découvert

Voici les grandes révélations de l'étude, expliquées simplement :

La parole ne vaut pas l'action : Les robots sont très bons pour dire "Je suis égalitaire" (l'accord explicite), mais ils sont beaucoup moins bons pour agir de manière égalitaire quand ils écrivent (la complétion implicite). C'est comme un ami qui vous dit "Je n'ai aucun préjugé", mais qui, quand il raconte une blague, utilise des clichés racistes.
Le "Température" du robot : Les chercheurs ont joué avec un bouton appelé "Température" (qui contrôle le hasard dans la réponse du robot).
- Quand le robot est très "froid" et logique, il est un peu plus stéréotypé.
- Quand on le rend un peu plus "chaud" et créatif, il devient encore plus stéréotypé ! C'est comme si, quand il s'excite, il sortait ses vieux clichés de sa poche.
Les préjugés cachés sont profonds : Les stéréotypes sur la race et la culture (comme les castes) sont beaucoup plus ancrés dans la façon dont le robot écrit que dans ce qu'il dit. C'est comme si ces idées étaient gravées dans le marbre de sa mémoire, même s'il essaie de les cacher.

🛠️ Pourquoi c'est important ?

Jusqu'à présent, on testait ces robots avec des données occidentales (comme aux États-Unis). C'est comme tester une voiture de course uniquement sur des routes de Californie. On ne sait pas comment elle se comporte sur les sentiers de montagne du Népal.

Cette étude montre que :

Les robots ne sont pas neutres : Ils apprennent nos biais, même ceux des pays pauvres en ressources technologiques.
Il faut des tests locaux : On ne peut pas utiliser les mêmes règles pour le Népal que pour New York. Il faut des données créées par des Népalais, pour les Népalais.
Attention aux apparences : Ne vous fiez pas uniquement aux réponses "politiquement correctes" des robots. Il faut regarder ce qu'ils produisent réellement quand ils écrivent des histoires ou donnent des conseils.

💡 En résumé

Imaginez que vous invitez un robot à un dîner au Népal. Il vous dira poliment qu'il respecte toutes les cultures (c'est l'accord explicite). Mais s'il commence à raconter des histoires sur la vie au Népal, il risque de raconter des contes de fées remplis de vieux préjugés sur les femmes et les castes (c'est la complétion implicite).

Cette étude nous dit : "Arrêtons de faire confiance aux robots aveuglément. Il faut les entraîner avec nos propres histoires, nos propres cultures, et vérifier non seulement ce qu'ils disent, mais surtout ce qu'ils font."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context » en français.

1. Problématique et Contexte

Les modèles de langage de grande taille (LLM) influencent de plus en plus les écosystèmes numériques mondiaux, mais leur capacité à perpétuer des biais sociaux et culturels reste mal comprise dans les contextes sous-représentés, en particulier dans le « Sud global ». La recherche actuelle sur les biais des LLM se concentre majoritairement sur les contextes occidentaux et les données en anglais, laissant des lacunes critiques pour des pays comme le Népal, qui possède une diversité linguistique (120 langues) et socioculturelle (plus de 125 castes et groupes ethniques) complexe.

Les biais existants dans les LLMs (comme GPT-4, Claude, Gemini) risquent de renforcer les stéréotypes de genre, raciaux et socioculturels népalais, notamment en matière de castes, de pratiques religieuses et de dynamiques urbain-rural. Les frameworks d'évaluation actuels (ex: StereoSet, BOLD) sont inadaptés car ils manquent de granularité culturelle pour capturer des normes spécifiques comme la discrimination par caste. De plus, les études précédentes sur le Népal se sont limitées à des dimensions spécifiques (traduction, politique) sans approche intégrée ni évaluation quantitative rigoureuse.

2. Méthodologie

L'étude propose une approche systématique et quantitative pour évaluer les biais dans sept LLMs de pointe (GPT-4o-mini, Claude-3/4-Sonnet, Gemini-2.0-Flash/Lite, Llama-3-70B, Mistral-Nemo) à travers le prisme des normes culturelles népalaises.

A. Construction du Dataset : EquiText-Nepali

Les auteurs ont créé un nouveau dataset conforme aux normes Croissant, nommé EquiText-Nepali, contenant plus de 2 400 paires de phrases (stéréotypées et anti-stéréotypées).

Catégories de biais : Genre, Race/Ethnicité, et Socioculturel (incluant les castes, les relations interreligieuses et les hiérarchies sociales).
Domaines : Profession, éducation, politique, traditions et dynamiques urbaines-rurales.
Processus : Construction basée sur des données démographiques réelles (Recensement 2021), validée par des annotateurs experts bilingues (népalais/anglais) avec un taux d'accord inter-annotateurs élevé (environ 92 %).

B. Cadre d'Évaluation : Dual-Metric Bias Assessment (DMBA)

Pour capturer la nature multidimensionnelle du biais, l'étude utilise deux métriques complémentaires :

Accord Explicite (Explicit Agreement) : Mesure la probabilité que le modèle s'accorde avec une affirmation stéréotypée par rapport à une affirmation anti-stéréotypée. Cela évalue le « biais de croyance ».
Tendance à la Complétion Générative (Implicit Completion Bias) : Le modèle reçoit un prompt tronqué (les 6 premiers tokens d'une phrase stéréotypée) et doit générer une suite. La complétion est comparée aux références stéréotypées et anti-stéréotypées via la similarité cosinus (TF-IDF). Cela évalue le « biais comportemental » ou implicite.

C. Configuration Expérimentale

Modèles : 7 LLMs (propriétaires et open-source).
Paramètres de décodage : Analyse de sensibilité sur la température ( $T$ ) et le top-p (nucleus sampling) pour déterminer l'impact de la stochasticité sur l'expression des biais.
Analyse Statistique : Calcul de la prévalence du biais, de la magnitude moyenne, et corrélations entre les métriques explicites et implicites.

3. Résultats Clés

A. Prévalence et Nature du Biais

Biais Implicite > Biais Explicite : Les taux de complétion stéréotypée (biais implicite) sont systématiquement plus élevés (0,740 – 0,755) que les taux d'accord explicite (0,36 – 0,43). Cela suggère que les modèles perpétuent davantage les stéréotypes par leur comportement génératif que par leurs déclarations directes.
Découplage des Métriques : Une analyse de corrélation révèle une relation faible, voire négative, entre l'accord explicite et le biais de complétion implicite. Un modèle peut sembler « juste » lors d'une question directe mais générer des contenus stéréotypés dans un contexte ouvert. Les métriques d'accord seul sont donc de mauvais prédicteurs du biais génératif.

B. Impact des Paramètres de Décodage

Température ( $T$ ) : L'augmentation de la température amplifie légèrement le biais explicite (de 0,36 à 0,43). Pour le biais implicite, la relation est non linéaire (en forme de U) : le taux de complétion stéréotypée atteint un pic à une stochasticité modérée ( $T=0,3$ ) avant de diminuer légèrement à des températures plus élevées.
Top-p : L'augmentation du top-p amplifie le biais explicite (plus de confiance dans les jugements biaisés), tandis que le biais génératif implicite reste globalement stable, indiquant une robustesse des tendances génératives aux variations d'échantillonnage.

C. Analyse par Domaine

Race et Socioculture : Les biais implicites sont les plus forts pour les stéréotypes raciaux et socioculturels (castes, religion), suggérant une sous-représentation systémique de ces communautés dans les données d'entraînement web.
Genre : Le biais d'accord explicite est élevé pour le genre et le socioculturel, mais les taux d'accord pour la race sont plus faibles, montrant une divergence dans la façon dont les biais se manifestent selon le domaine.

4. Contributions Principales

Dataset EquiText-Nepali : Introduction d'un benchmark culturellement ancré, conforme aux standards ML (Croissant), spécifiquement conçu pour le contexte népalais, comblant le vide des données non-occidentales.
Cadre DMBA : Proposition d'une méthodologie d'évaluation à double métrique qui démontre que l'évaluation unidimensionnelle (seulement l'accord ou seulement la génération) est insuffisante pour capturer la complexité des biais dans les LLMs.
Analyse de Sensibilité : Mise en évidence de la manière dont les paramètres de décodage (température, top-p) influencent différemment les biais explicites et implicites, soulignant la nécessité de tester les modèles sous diverses configurations.
Étude de Cas Global-Sud : Fourniture de preuves empiriques sur les biais dans un contexte à faible ressource linguistique, mettant en lumière les inégalités technologiques et la nécessité de stratégies de débiaisage culturellement adaptées.

5. Signification et Limites

Cette étude souligne l'urgence de développer des datasets et des stratégies de débiaisage ancrés culturellement pour les sociétés sous-représentées. Elle démontre que les modèles actuels, même les plus avancés, perpétuent des préjugés profonds liés aux castes et aux ethnies au Népal, souvent de manière plus insidieuse (générative) que déclarative.

Limites notables :

Le dataset est en anglais pour assurer la compatibilité inter-modèles, ce qui pourrait sous-estimer les nuances des biais dans le contexte linguistique natif népalais.
L'étude se concentre sur trois catégories de biais, ne couvrant pas potentiellement tout le spectre des biais intersectionnels.
Les données sont statiques et reflètent les normes à un instant donné.

En conclusion, ce travail établit une référence majeure pour l'évaluation de l'équité des LLMs dans les contextes du Sud global et appelle à une intégration plus poussée des contextes culturels locaux dans le développement de l'IA.