Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Each language version is independently generated for its own context, not a direct translation.

Imagine que as Inteligências Artificiais (IAs) que traduzem textos são como cozinheiros muito rápidos, mas que nunca saíram da cozinha. Eles aprenderam a cozinhar lendo milhões de receitas da internet. O problema é que, na internet, muitas receitas têm preconceitos escondidos: se a receita diz "o cozinheiro", a IA assume automaticamente que é um homem, mesmo que na vida real existam muitas mulheres excelentes cozinheiras.

Este artigo de pesquisa é como um teste de degustação feito para descobrir se esses "cozinheiros digitais" estão servindo pratos com viés de gênero, especialmente quando lidam com o Basco, uma língua muito especial.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Espelho" Quebrado

A maioria dos testes para ver se uma IA é preconceituosa foi feita em inglês. É como tentar medir a temperatura de um dia de inverno na Escócia usando um termômetro feito para o deserto do Saara. Não funciona bem!

O Basco é especial: Diferente do espanhol, do francês ou do inglês, o Basco não tem gênero gramatical. Na língua basca, não existe "ele" ou "ela" para profissões. Um "médico" é apenas "médico".
O Desafio: Quando você pede para a IA traduzir do Basco (neutro) para o Espanhol (que tem gênero), ela é obrigada a escolher: será que é "médico" (masculino) ou "médica" (feminino)? A pesquisa quer saber: a IA escolhe o masculino por padrão, mesmo quando a realidade diz que a maioria são mulheres?

2. As Duas Novas Ferramentas (Os "Jogos")

Os pesquisadores criaram dois novos "jogos" para testar essas IAs:

A. O Jogo "WinoMTeus" (O Espelho da Realidade)

A Analogia: Imagine que você tem uma lista de profissões em Basco (onde não diz se é homem ou mulher). Você pede para a IA traduzir para o Espanhol.
O Teste: Se a IA traduzir "enfermeiro" como "enfermeiro" (homem) 90% das vezes, mas na Basque Country (região onde se fala Basco) 96% dos enfermeiros são mulheres, a IA está mentindo sobre a realidade.
O Resultado: A IA foi pega no flagra. Ela tende a transformar quase todas as profissões em "homens", mesmo que na vida real sejam majoritariamente mulheres. É como se a IA achasse que o mundo é feito de homens, a menos que provem o contrário.

B. O Jogo "FLORES+Gender" (O Teste de Qualidade)

A Analogia: Aqui, fazemos o caminho inverso. Pegamos uma frase em Espanhol que diz "A motorista" (mulher) e outra que diz "O motorista" (homem) e pedimos para a IA traduzir para o Basco.
O Teste: Será que a IA traduz melhor quando a frase original fala de um homem? Será que ela erra mais ou faz uma tradução pior quando o sujeito é uma mulher?
O Resultado: Em alguns casos, a IA traduziu um pouco melhor quando o sujeito era homem. É como se a IA tivesse um "sabor preferido" pelo masculino, tornando a tradução mais fluida para homens e um pouco mais "travada" para mulheres.

3. O Que Eles Descobriram?

Os pesquisadores testaram várias IAs famosas (como o Google Translate, modelos da OpenAI, etc.) e descobriram:

O Vício no Masculino: Quase todas as IAs têm uma preferência automática por usar a forma masculina. É o "padrão de fábrica". Mesmo quando a estatística diz que 90% dos cabeleireiros são mulheres, a IA ainda tende a usar "cabeleireiro" (homem) na tradução.
A Realidade Ignorada: As IAs não estão apenas seguindo a gramática; elas estão ignorando a realidade social. Elas não "veem" que o mundo mudou.
Línguas Sem Gênero Sofrem: O Basco, por não ter gênero, acaba "vítima" desse preconceito. Quando a IA traduz do Basco, ela injeta o preconceito que não existia na frase original.

4. A Conclusão (A Lição do Dia)

Este estudo é um alerta importante. Ele nos diz que não basta criar IAs inteligentes; precisamos criar IAs justas.

Se usarmos apenas testes feitos em inglês, não vamos perceber esses problemas em línguas como o Basco. É como tentar achar um defeito em um carro usando apenas um manual de outro modelo.

Resumo da Ópera:
As IAs atuais ainda são como espelhos quebrados: elas refletem os preconceitos antigos da internet, transformando mulheres em homens nas traduções e ignorando a realidade. Para consertar isso, precisamos de novos testes (como os criados neste artigo) que olhem para a cultura e a realidade local, não apenas para a gramática.

A mensagem final é: Para traduzir o mundo com justiça, precisamos ensinar as máquinas a verem as mulheres tanto quanto veem os homens.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Gender Bias in MT for a Genderless Language: New Benchmarks for Basque", apresentado em português.

1. O Problema

As tecnologias de linguagem, incluindo Modelos de Linguagem de Grande Escala (LLMs) e Sistemas de Tradução Automática (MT), são frequentemente treinadas em dados não curados da internet, o que leva à reprodução e amplificação de estereótipos de gênero presentes nos dados de treinamento. A maioria dos recursos existentes para avaliar esses vieses foi desenvolvida para o inglês, refletindo seu contexto sociocultural e suas características linguísticas específicas (como pronomes e concordância de gênero).

Isso cria duas lacunas principais:

Inaplicabilidade a outras línguas: Os vieses são moldados pela cultura e pelas estruturas linguísticas; portanto, benchmarks baseados em inglês não se aplicam diretamente a línguas tipologicamente diferentes.
Falta de recursos para línguas sem gênero gramatical: Línguas como o Basco (uma língua isolada com poucos recursos e sem gênero gramatical) carecem de benchmarks dedicados. Em línguas sem gênero, a avaliação de viés é complexa porque não há marcadores explícitos (como pronomes de gênero) para rastrear, exigindo abordagens diferentes das usadas em línguas como o inglês ou espanhol.

2. Metodologia

Os autores abordam essa lacuna introduzindo dois novos conjuntos de dados e avaliando diversos modelos de tradução automática (MT) e LLMs. A metodologia divide-se em duas direções de tradução:

A. Novos Benchmarks

WinoMTeus (Basco $\to$ Línguas com Gênero):
- Adaptação do benchmark WinoMT para o Basco.
- Objetivo: Avaliar como ocupações neutras em Basco são traduzidas para línguas com gênero (Espanhol e Francês).
- Processo: Tradução manual e pós-edição de 1.827 frases, alinhamento cultural (moeda, números de emergência) e criação de um glossário de 78 ocupações.
- Métrica de Avaliação: Comparação da distribuição de gênero gerada pelos modelos com estatísticas reais de emprego do País Basco (dados do Lanbide). Utiliza-se o coeficiente de correlação de Pearson e a métrica GRAPE (Gender RAtion Probabili-tiEs) para medir a magnitude e direção do viés.
FLORES+Gender (Línguas com Gênero $\to$ Basco):
- Extensão do benchmark FLORES+.
- Objetivo: Avaliar se a qualidade da tradução para o Basco varia dependendo do gênero do referente na frase de origem (Espanhol e Inglês).
- Processo: Criação de pares contrastivos onde frases idênticas semanticamente são modificadas para ter referências masculinas ou femininas (substituindo nomes próprios, adjetivos e artigos).
- Métrica de Avaliação: Métricas automáticas padrão (chrF++ e TER) e testes de significância estatística (randomização aproximada pareada) para detectar diferenças de qualidade entre as versões masculinas e femininas.

B. Modelos Avaliados

O estudo testou três categorias de sistemas:

LLMs de Propósito Geral: Latxa (8B e 70B), Llama 3.1, GPT-5, Claude 4 Sonnet, DeepSeek-V3.2.
Modelos NMT Abertos: MADLAD-400, NLLB-200, SalamandraTA, e modelos do HiTZ Center.
Serviços de Tradução Proprietários: Google Translate, Elia, Batua e Itzuli.

3. Principais Contribuições

Recursos para Línguas de Baixo Recurso: Criação dos primeiros benchmarks específicos para avaliar viés de gênero no Basco, uma língua sem gênero gramatical.
Validação com Dados Reais: O WinoMTeus é o primeiro recurso que correlaciona diretamente as traduções de ocupações com estatísticas oficiais de emprego de uma região específica (País Basco), permitindo uma avaliação de "justiça representacional" baseada em dados reais.
Análise Bidirecional: O trabalho cobre tanto a tradução de uma língua sem gênero para línguas com gênero (onde o modelo deve "escolher" um gênero) quanto de línguas com gênero para uma língua sem gênero (onde o modelo deve "perder" o gênero), oferecendo uma visão completa do comportamento dos modelos.
Análise de Fatores Linguísticos: O FLORES+Gender inclui anotações detalhadas (múltiplas entidades, nomes próprios, uso de masculino não marcado) para entender como fatores contextuais influenciam o viés.

4. Resultados

Viés de Gênero na Tradução (Basco $\to$ Espanhol/Francês)

Preferência Sistemática pelo Masculino: Todos os modelos avaliados demonstraram uma preferência sistemática por formas masculinas ao traduzir ocupações neutras do Basco.
Distorção de Ocupações Feminizadas: Ocupações que são predominantemente femininas na realidade (ex: governanta, costureira, recepcionista) foram frequentemente traduzidas no masculino. A exceção notável foi "enfermeira", que manteve o feminino com maior frequência.
Correlação com a Realidade: Alguns modelos (especialmente NLLB-200, GPT-5 e Latxa 70B) mostraram uma correlação moderada com as estatísticas de emprego reais, indicando que capturam parcialmente a distribuição real, mas ainda exageram o "padrão masculino" devido à sua frequência nos dados de treinamento.
Impacto da Adaptação: Modelos adaptados especificamente para o Basco (como o Latxa) apresentaram melhor alinhamento com a realidade do que seus equivalentes baseados apenas em Llama.

Qualidade da Tradução (Espanhol/Inglês $\to$ Basco)

Vantagem Masculina (Espanhol): Na tradução do Espanhol (língua fortemente marcada por gênero) para o Basco, a maioria dos modelos obteve pontuações ligeiramente melhores para frases com referentes masculinos, especialmente quando o masculino não marcado (genérico) era usado.
Inconsistência (Inglês): Na tradução do Inglês (gênero fraco), não houve um padrão claro de viés; alguns modelos performaram melhor com referentes femininos, outros com masculinos.
Significância Estatística: A maioria das diferenças de qualidade não foi estatisticamente significativa, exceto em casos específicos (ex: sistema Batua mostrou diferença significativa a favor do masculino no Espanhol).

5. Significância e Conclusões

O estudo demonstra que o viés de gênero está profundamente enraizado nos modelos de IA atuais, mesmo quando a língua de origem (Basco) não possui gênero gramatical.

O "Padrão Masculino": Os modelos tendem a usar o masculino como valor padrão (não marcado) ao introduzir gênero em línguas alvo, refletindo preconceitos socioculturais e desequilíbrios nos dados de treinamento.
Necessidade de Avaliação Contextualizada: A pesquisa enfatiza que a avaliação de viés não pode ser universal; deve considerar as características linguísticas (como a ausência de gênero) e o contexto sociocultural específico de cada língua.
Futuro: Os recursos lançados (WinoMTeus e FLORES+Gender) fornecem uma base essencial para desenvolver práticas de treinamento e avaliação mais justas para línguas minoritárias e sem gênero, indo além da dependência exclusiva de benchmarks em inglês.

Em suma, o trabalho prova que a neutralidade linguística na origem não garante neutralidade na saída dos modelos, e que a correção desses vieses exige dados de avaliação específicos e culturalmente relevantes.

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

1. O Problema: O "Espelho" Quebrado

2. As Duas Novas Ferramentas (Os "Jogos")

A. O Jogo "WinoMTeus" (O Espelho da Realidade)

B. O Jogo "FLORES+Gender" (O Teste de Qualidade)

3. O Que Eles Descobriram?

4. A Conclusão (A Lição do Dia)

1. O Problema

2. Metodologia

A. Novos Benchmarks

B. Modelos Avaliados

3. Principais Contribuições

4. Resultados

Viés de Gênero na Tradução (Basco →\to→ Espanhol/Francês)

Qualidade da Tradução (Espanhol/Inglês →\to→ Basco)

5. Significância e Conclusões

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Viés de Gênero na Tradução (Basco $\to$ Espanhol/Francês)

Qualidade da Tradução (Espanhol/Inglês $\to$ Basco)