Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (IA) que traducen textos son como cocineros muy rápidos, pero que nunca han aprendido a cocinar por sí mismos. En su lugar, han "comido" millones de recetas (datos) de internet. El problema es que muchas de esas recetas antiguas tienen prejuicios: si pides "enfermero", el cocinero IA asume automáticamente que es un hombre, y si pides "enfermera", asume que es una mujer, aunque en la vida real haya muchos hombres enfermeros y muchas mujeres mecánicas.

Este artículo de investigación es como una auditoría de cocina que se hace en el País Vasco, una región donde la lengua (euskera) es especial porque no tiene género gramatical. En euskera, una palabra como "mecánico" o "enfermero" es neutra; no dice si es hombre o mujer.

Los investigadores, Amaia, Olatz y Naiara, querían ver qué pasa cuando estos "cocineros IA" traducen desde el euskera (neutro) hacia idiomas que sí tienen género, como el español o el francés. ¿El IA decide por su cuenta quién es hombre y quién es mujer basándose en estereotipos?

Para descubrirlo, crearon dos juegos de pruebas (como si fueran exámenes de cocina):

1. El juego "WinoMTeus": ¿Quién hace qué trabajo?

Imagina que le dices al IA: "El mecánico llamó a la enfermera porque se rompió la pierna". En euskera, las palabras son neutras. Pero cuando el IA tiene que traducirlo al español, tiene que elegir: ¿"El mecánico" o "La mecánica"? ¿"El enfermero" o "La enfermera"?

La analogía: Es como si le dieras al IA una foto borrosa de una persona haciendo un trabajo y le preguntaras: "¿Es hombre o mujer?".
El hallazgo: Los investigadores compararon las respuestas del IA con las estadísticas reales de trabajo en el País Vasco. Descubrieron que el IA tiene un sesgo masivo hacia lo masculino.
- Si el trabajo es "enfermera" (que en la realidad es 96% mujeres), el IA a menudo lo traduce como "el enfermero" (hombre).
- El IA prefiere usar la forma masculina como "por defecto", incluso cuando la realidad dice lo contrario. Es como si el IA pensara: "Si no estoy seguro, mejor pongo 'hombre', que es lo que suena más normal".

2. El juego "FLORES+Gender": ¿Traduce mejor si es hombre?

En este juego, hicieron lo contrario. Tradujeron textos desde español o inglés (donde sí se sabe si es hombre o mujer) hacia euskera.

La analogía: Imagina que le das al IA dos recetas idénticas, pero una dice "El chef" y la otra "La chef". ¿Traduce el IA la receta del "chef" hombre con más cuidado o mejor calidad que la de la "chef" mujer?
El hallazgo: En general, la calidad de la traducción es muy similar, pero en algunos casos, el IA traduce un poco mejor cuando el sujeto es un hombre. Es como si el IA tuviera un "lente de aumento" para los hombres y un "lente un poco más oscuro" para las mujeres, haciendo que el resultado final sea ligeramente menos preciso para ellas.

¿Por qué es importante esto?

El euskera es una lengua "sin género", lo que significa que en su estructura natural no discrimina. Pero al usar herramientas de traducción automáticas, introducimos el género y, con él, los prejuicios.

Los autores nos dicen que:

Los modelos actuales son "machistas" por defecto: Tienen una preferencia automática por la forma masculina, incluso cuando no hay ninguna razón para ello.
No podemos usar las mismas pruebas para todos: Las pruebas que funcionan para el inglés no sirven para el euskera porque las reglas del juego (la gramática) son diferentes.
Necesitamos nuevos espejos: Para ver los prejuicios en idiomas como el euskero, necesitamos crear nuestros propios espejos (datos de prueba) que reflejen nuestra realidad cultural y lingüística.

En resumen:
Este estudio nos avisa de que, aunque la tecnología avanza rápido, sigue cargando con los "maletines viejos" de los prejuicios sociales. Si no corregimos a estos "cocineros IA" y les enseñamos a respetar la realidad de quién hace qué trabajo (y a no asumir que todo es hombre por defecto), seguiremos reproduciendo una imagen distorsionada del mundo, especialmente en lenguas ricas y únicas como el euskera.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Gender Bias in MT for a Genderless Language: New Benchmarks for Basque", presentado en español:

1. El Problema

Los modelos de lenguaje grandes (LLM) y los sistemas de traducción automática (MT) suelen reproducir sesgos de género presentes en sus datos de entrenamiento. Sin embargo, la mayoría de los recursos existentes para evaluar estos sesgos están diseñados para el inglés y reflejan su contexto sociocultural y lingüístico. Esto limita su aplicabilidad a otros idiomas, especialmente a lenguas sin género gramatical (como el euskera) y lenguas de recursos limitados.

En el euskera, la ausencia de marcadores de género gramatical (pronombres, adjetivos o sustantivos con género) hace que los métodos de evaluación tradicionales (basados en la resolución de referencias con pronombres) no sean directamente aplicables. Además, existe una escasez crítica de recursos para evaluar cómo estos sistemas manejan el género al traducir hacia o desde lenguas con género (como el español o el francés).

2. Metodología y Contribuciones Clave

Para abordar esta brecha, los autores presentan dos nuevos conjuntos de datos (benchmarks) diseñados específicamente para evaluar el sesgo de género en traducciones que involucran al euskera:

A. WinoMTeus (Traducción desde Euskera hacia lenguas con género)

Objetivo: Evaluar cómo los modelos asignan género a ocupaciones neutras en euskera al traducirlas a lenguas con género (español y francés).
Adaptación: Se adaptó el benchmark WinoMT (originalmente en inglés) al euskera. El proceso incluyó:
1. Creación de un glosario de 78 ocupaciones culturalmente equivalentes.
2. Traducción al euskera mediante GPT-4o y posterior edición manual para corregir errores gramaticales y adaptar el contexto cultural.
3. Filtrado de duplicados.
Método de Evaluación: Se traduce el dataset de euskera a español y francés. Se extraen las ocupaciones traducidas y se etiqueta su género. Luego, se compara la distribución de género generada por el modelo con estadísticas laborales reales del País Vasco (obtenidas de Lanbide).
Métricas: Coeficiente de correlación de Pearson (para medir la alineación con la realidad) y la métrica GRAPE (Gender RAtion Probabili-tiEs) para cuantificar la dirección y magnitud del sesgo.

B. FLORES+Gender (Traducción hacia Euskera desde lenguas con género)

Objetivo: Determinar si la calidad de la traducción hacia el euskera varía dependiendo del género del referente en la lengua fuente (español e inglés).
Adaptación: Basado en el benchmark FLORES+. Se crearon pares contrastivos: para cada oración original, se generó una versión con referentes masculinos y otra con femeninos, manteniendo la equivalencia semántica.
Anotación: Las oraciones se etiquetaron manualmente para fenómenos lingüísticos específicos:
- ME: Múltiples entidades de género.
- PN: Nombres propios.
- UM: Uso no marcado del masculino (específico en español, ej. "los investigadores").
Método de Evaluación: Se traduce desde español e inglés hacia el euskera. Se compara la calidad de la traducción entre los subconjuntos masculinos y femeninos.
Métricas: chrF++ y TER (Translation Edit Rate), con pruebas de significancia estadística mediante aleatorización aproximada emparejada.

3. Configuración Experimental

Se evaluaron diversos modelos bajo tres paradigmas técnicos:

LLMs de propósito general: Latxa (8B y 70B), Llama 3.1, GPT-5, Claude 4 Sonnet, DeepSeek-V3.2.
Modelos de MT abiertos (NMT): MADLAD-400, NLLB-200, y modelos específicos del Centro HiTZ (Español-Euskera, Inglés-Euskera).
Servicios de traducción propietarios: Google Translate, Elia, Batua e Itzuli.

4. Resultados Principales

En WinoMTeus (Euskera $\to$ Español/Francés)

Sesgo Masculino Sistemático: Todos los modelos mostraron una preferencia sistemática por las formas masculinas al traducir ocupaciones neutras, incluso cuando la realidad laboral vasca indica que esas ocupaciones son mayoritariamente femeninas (ej. "enfermera", "limpiadora", "costurera").
Alineación Parcial: Algunos modelos (como GPT-5, NLLB-200 y Latxa 70B) mostraron una correlación moderada con las estadísticas laborales reales, indicando que capturan alguna distribución real, pero exageran el masculino por defecto.
Excepciones: La única ocupación que tendió a traducirse consistentemente en femenino fue "enfermera", aunque el sesgo masculino sigue siendo dominante en el resto.

En FLORES+Gender (Español/Inglés $\to$ Euskera)

Impacto en la Calidad: Los resultados fueron menos consistentes. En la dirección Español $\to$ Euskera, la mayoría de los modelos obtuvieron puntuaciones ligeramente mejores (aunque a menudo no significativas) para oraciones con referentes masculinos, especialmente cuando se usaba el "masculino genérico" no marcado.
Influencia de Factores Lingüísticos:
- En oraciones con múltiples entidades de género, algunos sistemas (como HiTZ MT) favorecieron el contexto masculino.
- En la traducción desde inglés (lenguaje débilmente marcado), no hubo un patrón de sesgo claro; algunos modelos favorecieron nombres propios femeninos y otros masculinos.
Significancia: Solo unos pocos modelos (como Batua) mostraron diferencias estadísticamente significativas consistentes a favor del masculino en la dirección español-euskera.

5. Significado y Conclusión

Revelación de Sesgos Ocultos: El estudio demuestra que la falta de género gramatical en el euskera no protege a los sistemas de IA de reproducir estereotipos de género. Al traducir hacia lenguas con género, los modelos tienden a "masculinizar" por defecto, reforzando desigualdades sociales.
Necesidad de Evaluación Contextual: Los resultados subrayan que las métricas de evaluación deben considerar tanto las características lingüísticas como el contexto cultural. Los benchmarks basados en inglés no son transferibles directamente.
Impacto en el Desarrollo: Estos recursos (WinoMTeus y FLORES+Gender) proporcionan una base fundamental para desarrollar modelos de traducción más justos y para auditar sistemas comerciales y de código abierto en lenguas minoritarias y sin género.
Limitaciones: El estudio reconoce limitaciones, como el tratamiento binario del género (masculino/femenino), el uso de nombres propios para inferir género (que puede introducir sesgos) y la naturaleza controlada de los datos, que no refleja completamente el uso natural del lenguaje.

En resumen, el trabajo confirma que los sesgos de género están profundamente arraigados en los modelos actuales de MT y LLM, incluso en contextos lingüísticos donde el género no es gramaticalmente obligatorio, y propone herramientas esenciales para medir y mitigar estos problemas en lenguas de recursos limitados.

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

1. El juego "WinoMTeus": ¿Quién hace qué trabajo?

2. El juego "FLORES+Gender": ¿Traduce mejor si es hombre?

¿Por qué es importante esto?

1. El Problema

2. Metodología y Contribuciones Clave

A. WinoMTeus (Traducción desde Euskera hacia lenguas con género)

B. FLORES+Gender (Traducción hacia Euskera desde lenguas con género)

3. Configuración Experimental

4. Resultados Principales

En WinoMTeus (Euskera →\to→ Español/Francés)

En FLORES+Gender (Español/Inglés →\to→ Euskera)

5. Significado y Conclusión

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

En WinoMTeus (Euskera $\to$ Español/Francés)

En FLORES+Gender (Español/Inglés $\to$ Euskera)