GRADIEND: Feature Learning within Neural Networks Exemplified through Biases
Este estudio presenta GRADIEND, un enfoque novedoso que utiliza gradientes de modelos para identificar y reescribir neuronas específicas con el fin de eliminar sesgos sociales como género, raza y religión, manteniendo al mismo tiempo las capacidades generales del modelo.