Are you sure? Measuring models bias in content moderation through uncertainty
Deze studie introduceert een onbewaakte methode die conformal prediction gebruikt om de onzekerheid van taalmodellen te meten als proxy voor bias in contentmoderatie, waardoor het mogelijk wordt om te identificeren welke groepen minder goed vertegenwoordigd zijn in de modellen, zelfs wanneer de voorspellingen ogenschijnlijk accuraat zijn.