Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si on en parlait autour d'un café.

🌍 Le Problème : Les Robots qui ont des "Idées Préconçues"

Imaginez que vous demandez à un robot très intelligent de traduire une phrase. Ce robot a lu des milliards de livres et d'articles sur Internet pour apprendre. Le problème, c'est que l'Internet est rempli de vieux stéréotypes.

Par exemple, si vous demandez à un robot : "Qui est le médecin ?" et "Qui est l'infirmière ?", il a tendance à dire que le médecin est un homme et l'infirmière est une femme, même si dans la réalité, il y a de plus en plus de femmes médecins et d'hommes infirmiers. C'est ce qu'on appelle le biais de genre.

🇪🇺 Le Défi Spécial : La Langue Basque

Les chercheurs de ce papier se sont intéressés à une langue très particulière : le basque.
Imaginez le basque comme une île linguistique.

En espagnol ou en français, les mots ont un "genre" : on dit le médecin (masculin) ou la médecin (fémnin). C'est comme si chaque objet avait un badge "Homme" ou "Femme".
En basque, il n'y a pas de genre. Le mot pour "médecin" est le même, que ce soit un homme ou une femme. C'est neutre, comme un vêtement "unisex".

Le défi, c'est que les robots (les modèles d'intelligence artificielle) sont entraînés principalement avec des langues qui ont des genres (comme l'anglais, l'espagnol). Quand ils doivent traduire du basque vers l'espagnol, ils doivent inventer un genre là où il n'y en a pas. C'est là que le biais apparaît : le robot choisit souvent le genre masculin par défaut, comme s'il disait "par défaut, tout le monde est un homme".

🔍 Les Deux Nouvelles "Loupes" (Les Datasets)

Pour vérifier si ces robots sont biaisés, les chercheurs ont créé deux nouveaux jeux de données, comme deux nouvelles loupes pour inspecter le travail des robots.

1. La Loupe "WinoMTeus" : De l'Indifférent au Préjugé

Imaginez que vous avez une liste de métiers en basque (neutres) et que vous demandez au robot de les traduire en espagnol.

L'expérience : Le robot voit "le/la coiffeur(euse)" en basque. Il doit décider en espagnol : coiffeur ou coiffeuse ?
Le test : Les chercheurs ont comparé ce que le robot a choisi avec la réalité (les statistiques réelles du travail au Pays Basque).
Le résultat : Même si la réalité montre qu'il y a 96% de femmes dans le métier de "femme de ménage", le robot traduit souvent ce mot au masculin ! C'est comme si le robot portait des lunettes roses qui lui font voir des hommes partout, même dans des métiers où il n'y en a presque pas.

2. La Loupe "FLORES+Gender" : La Qualité Change-t-elle ?

Cette fois, on fait l'inverse. On prend des phrases en espagnol ou en anglais (où le genre est marqué) et on demande au robot de les traduire en basque.

L'expérience : On crée deux versions d'une phrase : une avec un homme ("Le conducteur") et une avec une femme ("La conductrice").
Le test : Est-ce que le robot traduit mieux la phrase avec l'homme que celle avec la femme ?
Le résultat : Souvent, oui. Le robot semble "plus à l'aise" ou fait moins d'erreurs quand il parle d'hommes. C'est comme si un traducteur humain était plus fatigué et faisait plus de fautes quand il parlait d'une femme, simplement parce qu'il est habitué à parler d'hommes.

📉 Ce que les Chercheurs Ont Découvert

Le Masculin est la "Voie par Défaut" : Presque tous les robots, qu'ils soient gratuits ou payants, ont tendance à choisir le masculin quand ils ne sont pas sûrs. C'est une habitude tenace.
Les Métiers "Féminins" sont encore Masculinisés : Même pour des métiers où il y a 90% de femmes (comme les infirmières ou les secrétaires), les robots les traduisent souvent au masculin.
La Qualité n'est pas Égale : Traduire une phrase sur un homme donne souvent un meilleur résultat (moins d'erreurs) que traduire une phrase sur une femme.

💡 Pourquoi est-ce Important ?

C'est comme si vous aviez un traducteur automatique qui, sans le vouloir, efface la présence des femmes dans la société. Si vous utilisez ce robot pour traduire des offres d'emploi, des articles de presse ou des manuels scolaires, vous risquez de renforcer l'idée que "les hommes sont la norme" et que "les femmes sont l'exception".

🚀 La Conclusion

Cette recherche nous dit : "Attention, nos robots ne sont pas neutres !"
Ils ont hérité des préjugés de leur éducation (les données d'Internet). Pour construire un futur plus juste, il faut créer des outils spécifiques pour chaque langue (comme le basque) et vérifier que les robots ne font pas de discrimination en traduisant.

En résumé : On ne peut pas simplement copier-coller les solutions de l'anglais vers le basque. Il faut des lunettes adaptées à chaque culture pour voir la réalité telle qu'elle est.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Gender Bias in MT for a Genderless Language: New Benchmarks for Basque » (Biais de genre dans la traduction automatique pour une langue sans genre : Nouveaux benchmarks pour le basque).

1. Problématique

Les grands modèles de langage (LLM) et les systèmes de traduction automatique (TA) reproduisent souvent les biais de genre présents dans leurs données d'entraînement. La majorité des ressources d'évaluation existantes sont conçues pour l'anglais, une langue à genre grammatical marqué, et reflètent le contexte socioculturel anglophone. Cela limite leur applicabilité aux autres langues, en particulier aux langues sans genre grammatical (comme le basque) et aux langues peu dotées en ressources.

Le défi spécifique abordé ici est double :

Comment les modèles traduisent-ils des termes d'occupation neutres en basque vers des langues à genre (espagnol, français) ?
La qualité de la traduction vers le basque varie-t-elle selon que la source (espagnol ou anglais) utilise des formes masculines ou féminines ?

2. Méthodologie et Contributions Clés

Les auteurs introduisent deux nouveaux jeux de données (benchmarks) spécifiquement conçus pour évaluer les biais de genre dans le contexte du basque, une langue isolée sans genre grammatical.

A. WinoMTeus (Basque $\rightarrow$ Langues à genre)

Origine : Adaptation du benchmark WinoMT (dérivé de Winogender et WinoBias).
Construction :
- Traduction de 1 827 phrases du basque (neutres) vers l'espagnol et le français.
- Création d'un glossaire de 78 professions pour assurer l'équivalence culturelle et linguistique.
- Post-édition manuelle et adaptation culturelle (devises, numéros d'urgence).
Méthode d'évaluation :
- Extraction automatique des professions dans les traductions et attribution du genre basée sur les articles et les terminaisons morphologiques.
- Comparaison avec la réalité : Les distributions de genre produites par les modèles sont comparées aux statistiques réelles de l'emploi au Pays basque (source : Lanbide, service public de l'emploi).
- Métriques : Coefficient de corrélation de Pearson et métrique GRAPE (Gender RAtion Probabili-tiEs) pour mesurer la direction et l'amplitude du biais par rapport à la distribution réelle.

B. FLORES+Gender (Langues à genre $\rightarrow$ Basque)

Origine : Extension du benchmark FLORES+ (Meta).
Construction :
- Création de paires contrastives à partir de l'anglais (faiblement genré) et de l'espagnol (fortement genré).
- Pour chaque phrase source, deux versions sont créées : une avec des références masculines et une avec des références féminines (changement de noms propres, accords, etc.), tout en maintenant l'équivalence sémantique.
- Annotation manuelle de phénomènes linguistiques : entités multiples (ME), noms propres (PN), et usage du masculin non marqué (UM, spécifique à l'espagnol).
Méthode d'évaluation :
- Traduction des deux versions vers le basque par divers modèles.
- Métriques : chrF++ et TER (Translation Edit Rate).
- Analyse statistique : Test de randomisation apparié pour déterminer si les différences de qualité entre les versions masculines et féminines sont significatives.

Modèles Évalués

L'étude couvre trois paradigmes techniques :

LLMs à usage général : Latxa (8B/70B), Llama 3.1, GPT-5, Claude 4 Sonnet, DeepSeek-V3.2.
Modèles de TA ouverts (NMT) : MADLAD-400, NLLB-200, modèles du HiTZ Center.
Services de TA propriétaires : Google Translate, Elia, Batua, Itzuli.

3. Résultats Principaux

Sur WinoMTeus (Basque $\rightarrow$ Espagnol/Français)

Préférence systématique pour le masculin : Tous les modèles tendent à traduire les occupations neutres en basque par des formes masculines en espagnol et en français, même lorsque la profession est majoritairement féminine dans la réalité (ex: 96,5 % de femmes pour les femmes de ménage).
Corrélation avec la réalité : Certains modèles (GPT-5, NLLB-200, Latxa 70B) montrent une corrélation modérée ( $r > 0,4$ ) avec les statistiques réelles, suggérant qu'ils capturent partiellement les distributions, mais amplifient le « masculin par défaut ».
Biais spécifique : Les professions très féminisées (femme de ménage, couturière, réceptionniste) sont systématiquement masculinisées par les modèles. La seule exception notable est l'infirmière, souvent traduite au féminin, mais avec une amplitude de biais faible.

Sur FLORES+Gender (Espagnol/Anglais $\rightarrow$ Basque)

Impact limité sur la qualité : Les différences de qualité de traduction (chrF++, TER) entre les sources masculines et féminines sont généralement faibles et non significatives.
Exceptions notables :
- Le système Batua montre une performance significativement meilleure pour les sources masculines en espagnol.
- NLLB-200 montre une légère performance supérieure pour les sources féminines en anglais.
Facteurs linguistiques : L'usage du masculin non marqué (générique) en espagnol semble influencer positivement la qualité de traduction pour certains modèles par rapport aux formes féminines marquées. La présence de noms propres et d'entités multiples crée des variations de performance, mais sans tendance de biais de genre aussi marquée que dans le sens inverse.

4. Signification et Conclusion

Persistance des biais : Même dans une langue source sans genre (basque), les modèles de TA et les LLMs réintroduisent systématiquement des biais de genre lorsqu'ils traduisent vers des langues à genre, privilégiant le masculin comme forme non marquée par défaut.
Importance du contexte culturel : Les résultats montrent que les biais ne sont pas seulement linguistiques mais reflètent des stéréotypes socioculturels et des déséquilibres dans les données d'entraînement.
Nouveaux standards d'évaluation : Ce travail démontre la nécessité de développer des benchmarks spécifiques aux langues peu dotées et sans genre, car les méthodes basées sur l'anglais (comme l'analyse des pronoms) sont inapplicables.
Limites : L'étude traite le genre comme binaire (masculin/féminin), ce qui est une simplification par rapport à la réalité des identités non-binaires, et se concentre sur des domaines spécifiques (professions, textes journalistiques).

En résumé, cette recherche fournit des outils essentiels pour quantifier et comprendre comment les technologies linguistiques perpétuent les inégalités de genre, en particulier dans des contextes linguistiques où le genre n'est pas grammaticalement codé, et appelle à des pratiques d'entraînement et d'évaluation plus conscientes de ces biais.

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

🌍 Le Problème : Les Robots qui ont des "Idées Préconçues"

🇪🇺 Le Défi Spécial : La Langue Basque

🔍 Les Deux Nouvelles "Loupes" (Les Datasets)

1. La Loupe "WinoMTeus" : De l'Indifférent au Préjugé

2. La Loupe "FLORES+Gender" : La Qualité Change-t-elle ?

📉 Ce que les Chercheurs Ont Découvert

💡 Pourquoi est-ce Important ?

🚀 La Conclusion

1. Problématique

2. Méthodologie et Contributions Clés

A. WinoMTeus (Basque →\rightarrow→ Langues à genre)

B. FLORES+Gender (Langues à genre →\rightarrow→ Basque)

Modèles Évalués

3. Résultats Principaux

Sur WinoMTeus (Basque →\rightarrow→ Espagnol/Français)

Sur FLORES+Gender (Espagnol/Anglais →\rightarrow→ Basque)

4. Signification et Conclusion

Articles similaires

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

A. WinoMTeus (Basque $\rightarrow$ Langues à genre)

B. FLORES+Gender (Langues à genre $\rightarrow$ Basque)

Sur WinoMTeus (Basque $\rightarrow$ Espagnol/Français)

Sur FLORES+Gender (Espagnol/Anglais $\rightarrow$ Basque)