Are you sure? Measuring models bias in content moderation through uncertainty
Cette étude propose une approche non supervisée utilisant l'incertitude des modèles via la prédiction conforme pour révéler des biais cachés dans la modération de contenu envers les groupes vulnérables, lesquels ne sont pas détectés par les métriques de performance traditionnelles comme le score F1.