What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models
Este estudo investiga as origens do viés de gênero em modelos de tradução automática, utilizando explicações contrastivas para identificar quais palavras do texto em inglês desencadeiam escolhas de gênero específicas em alemão e espanhol, demonstrando uma sobreposição significativa entre as atribuições do modelo e as percepções humanas.