What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models
Questo studio esplora le origini del bias di genere nei modelli di traduzione neurale analizzando, tramite spiegazioni contrastive e attribuzione di salienza, quali token di input influenzano la scelta del genere nelle traduzioni e confrontando tali meccanismi con le percezioni umane.