Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Cette étude révèle que les grands modèles de langage perpétuent des stéréotypes de genre en s'appuyant sur des déterminants sociaux de la santé dans des dossiers médicaux français, soulignant la nécessité d'évaluer les interactions entre ces facteurs pour mieux mesurer les biais.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, conçue pour être comprise par tous, sans jargon technique.

Imaginez que les Grands Modèles de Langage (IA) soient comme de super-cuisiniers qui ont appris à cuisiner en ayant lu des millions de livres de recettes, d'articles de journaux et de blogs sur Internet. Le problème ? Ces livres contiennent souvent des préjugés anciens ou des stéréotypes (par exemple : "les femmes cuisinent, les hommes réparent les voitures").

Cette étude, menée par des chercheurs français, pose une question cruciale : Si on donne à ces "cuisiniers" des dossiers médicaux anonymes, vont-ils deviner le genre du patient en se basant sur des stéréotypes sociaux plutôt que sur la réalité ?

Voici comment ils ont mené l'enquête, expliqué avec des métaphores :

1. Le Défi : Enlever les indices "évidents"

Dans un dossier médical français, le genre est souvent écrit clairement (Monsieur/Madame) ou deviné grâce aux noms (Marie vs Pierre). Pour voir si l'IA a vraiment des préjugés cachés, les chercheurs ont joué au "jeu de l'aveugle".

Ils ont pris des dossiers de patients et ont effacé tous les mots qui indiquent le genre. Ils ont transformé le texte en une liste de faits neutres, comme une carte d'identité sociale :

  • Au lieu de dire "Marie, infirmière", ils ont écrit : "Travaille dans le secteur santé", "Marié", "Fume".
  • Au lieu de "Pierre, ouvrier", ils ont écrit : "Travaille dans le secteur industriel", "Veuf", "Ne fume pas".

Ensuite, ils ont demandé à l'IA : "Devinez le genre de cette personne uniquement en vous basant sur sa vie sociale."

2. L'Expérience : Les "Enquêteurs" IA

Les chercheurs ont testé 9 différents modèles d'IA (comme des élèves de différentes tailles et origines). Ils ont demandé à chacun de donner une note de 1 à 7 :

  • 1 = C'est une femme.
  • 4 = Je ne sais pas (neutre).
  • 7 = C'est un homme.

Si l'IA donne systématiquement un "7" pour un homme qui est "retraité" et un "1" pour une femme qui est "étudiante", c'est qu'elle utilise des stéréotypes (des idées reçues) plutôt que de la logique médicale.

3. Les Découvertes : Ce que l'IA "pense"

Les résultats ressemblent à une révélation de secrets de famille :

  • Les IA sont des miroirs de nos préjugés : Tout comme nous, les humains, l'IA associe certains métiers ou situations à un genre.
    • Exemple : Si le dossier mentionne "Ouvrier" ou "Retraité", l'IA penche fortement vers "Homme".
    • Exemple : Si le dossier mentionne "Employée de bureau" ou "Femme au foyer", l'IA penche vers "Femme".
  • La taille compte, mais pas toujours : Les plus gros modèles (les "génies") sont un peu plus prudents, mais ils ne sont pas parfaits. Curieusement, les modèles adaptés spécifiquement à la médecine (qui devraient être plus sages) ont parfois montré plus de préjugés que les modèles généraux. C'est comme si un médecin spécialisé avait hérité de tous les clichés de ses collègues !
  • L'IA est plus sûre que les humains ? Les chercheurs ont aussi demandé à de vrais humains de faire le même jeu. Résultat : les humains et les IA ont fait exactement les mêmes erreurs de jugement basées sur les métiers. L'IA ne fait que refléter ce que la société a appris à ses "cuisiniers".

4. Pourquoi est-ce dangereux ? (Le danger du "Diagnostic")

Imaginez un scénario où un médecin utilise cette IA pour l'aider à diagnostiquer un patient.

  • Si le dossier dit "Patient, 40 ans, fumeur, travailleur manuel", l'IA pourrait, à cause de ses stéréotypes, suggérer des maladies liées aux hommes.
  • Si le patient est en réalité une femme qui correspond à ce profil, l'IA pourrait ignorer des symptômes spécifiques aux femmes (comme des problèmes menstruels, comme le montre l'image 1 du papier) parce que son "cerveau" a décidé : "C'est un homme, donc pas de problème de règles".

C'est comme si un détective, en voyant un chapeau de pompier, décidait automatiquement que le suspect est un homme, et ignorait la possibilité que ce soit une femme pompière.

5. La Conclusion : Comment réparer la cuisine ?

Les chercheurs ne disent pas "jetons les IA". Ils disent : "Attention, elles ont des lunettes teintées !"

  • Le diagnostic : Cette méthode permet de voir et comment l'IA a des préjugés, en regardant les liens entre le genre et la vie sociale (SDoH).
  • La solution : On ne peut pas effacer tous les préjugés du monde d'un coup (car l'IA apprend de notre monde imparfait). Mais on peut :
    1. Choisir ses outils : Privilégier les modèles qui montrent moins de préjugés.
    2. Donner des ordres clairs : Apprendre à l'IA à dire "Je ne vais pas deviner le genre, je vais juste analyser les symptômes".
    3. Surveiller : Utiliser ce type de test régulièrement pour s'assurer que l'IA ne dérive pas vers des stéréotypes dangereux.

En résumé : Cette étude nous rappelle que l'IA n'est pas magique ni neutre. Elle est un miroir de la société. Si nous voulons qu'elle aide les médecins à sauver des vies sans faire de discriminations, nous devons d'abord apprendre à voir et à corriger les "lunettes teintées" qu'elle porte sur le monde.