Can SAEs reveal and mitigate racial biases of LLMs in healthcare?
Cette étude évalue l'efficacité des Sparse Autoencoders (SAE) pour détecter et atténuer les biais raciaux dans les modèles de langage en santé, concluant qu'ils sont utiles pour identifier les dépendances problématiques aux démographies mais offrent une utilité marginale pour corriger ces biais dans des tâches cliniques réalistes.