GRADIEND: Feature Learning within Neural Networks Exemplified through Biases
Il paper introduce GRADIEND, un nuovo approccio encoder-decoder che utilizza i gradienti delle reti neurali per identificare e modificare i pesi responsabili dei pregiudizi sociali, consentendo di debiasare i modelli mantenendone le altre capacità.