Are you sure? Measuring models bias in content moderation through uncertainty

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom slimme computers soms de verkeerde kant op kijken: Een verhaal over twijfel en eerlijkheid

Stel je voor dat je een grote groep mensen hebt die als "rechercheurs" werken voor sociale media. Hun taak is om te beslissen of een bericht op Facebook of X (Twitter) schadelijk is (bijvoorbeeld haatzaaiend) of niet. Omdat er miljarden berichten zijn, kunnen mensen dit niet allemaal zelf doen. Dus hebben we slimme computers (kunstmatige intelligentie) ingeschakeld om hen te helpen.

Maar hier zit een probleem: deze computers zijn niet altijd eerlijk. Soms zijn ze strenger tegen bepaalde groepen mensen dan tegen anderen, zonder dat we het merken.

Dit onderzoek van Alessandra Urbinati en haar team probeert een nieuwe manier te vinden om te zien of deze computers eerlijk zijn. Ze gebruiken geen oude meetlatjes, maar kijken naar iets heel anders: twijfel.

1. Het oude meetlatje: "Hoe vaak heb je gelijk?"

Normaal gesproken kijken we naar een computer om te zien of hij goed is door te vragen: "Hoe vaak had je het goed?" (in het vakjargon: de F1-score).

Vergelijking: Stel je een student voor die een toets maakt. Als hij 90% van de vragen goed heeft, zeggen we: "Goed gedaan, hij is slim!"
Het probleem: Wat als die student alleen de vragen goed had die hij al kende, maar bij de moeilijke vragen over vreemde culturen of specifieke groepen mensen, hij raden deed? Dan lijkt hij slim, maar hij is niet eerlijk.

2. De nieuwe meetlat: "Hoe zeker ben je?"

De auteurs van dit paper zeggen: "Kijk niet alleen naar het antwoord, maar kijk ook naar hoe zeker de computer is van zijn antwoord."
Ze gebruiken een techniek die Conformal Prediction heet. Dat klinkt ingewikkeld, maar het is eigenlijk heel simpel:

Vergelijking: Stel je voor dat je een weerman bent.
- Weerman A zegt: "Het gaat regenen" en is 100% zeker.
- Weerman B zegt: "Het gaat misschien regenen, maar ik weet het niet zeker" en is onzeker.
- Als het later blijkt dat Weerman A het bij het verkeerde eind had, maar hij was zo zeker van zijn zaak, dan is dat gevaarlijk. Weerman B was voorzichtig.

In dit onderzoek kijken ze naar de "onzekerheid" van de computer. Als een computer een bericht van een zwarte vrouw analyseert en zegt: "Ik denk dat dit haatzaaiend is, maar ik ben er niet zeker van (ik twijfel)", terwijl hij bij een bericht van een blanke man zegt: "Dit is haatzaaiend, 100% zeker!", dan is er een probleem. De computer twijfelt meer bij bepaalde mensen.

3. Wat hebben ze ontdekt?

De onderzoekers hebben 11 verschillende slimme computers getest op twee grote lijsten met berichten. Ze keken naar de reacties van mensen uit vier groepen:

Blanke mannen
Blanke vrouwen
Niet-blanke mannen
Niet-blanke vrouwen

De verrassende bevindingen:

Snelheid is niet alles: Sommige computers hadden een hoge score op de oude "toets" (ze hadden vaak het juiste antwoord), maar ze twijfelden enorm als het ging om berichten van niet-blanke mensen.
De "blinde vlek": De computers waren vaak heel zeker van hun oordeel over blanke mensen, maar veel minder zeker (en dus onzekerder) over niet-blanke mensen. Dit betekent dat de computer misschien niet goed begrijpt wat voor hen "haat" is.
De winnaar: Niet elke computer is even slecht. Sommige modellen (zoals Mistral) waren eerlijker dan anderen. Ze twijfelden niet onevenredig veel bij bepaalde groepen.

4. Waarom is dit belangrijk?

Stel je voor dat deze computers beslissen wie er een ban krijgt op sociale media.

Als de computer twijfelt bij een bericht van een niet-blanke vrouw, maar toch besluit om het te verwijderen (omdat hij bang is dat het gevaarlijk is), dan is dat onrechtvaardig.
Als hij twijfelt bij een bericht van een blanke man en het niet verwijdert, terwijl het misschien wel gevaarlijk was, dan is dat ook onrechtvaardig.

Door naar de twijfel te kijken, kunnen we zien welke computers "vooroordelen" hebben. Het is alsof we een spiegel voor de computer houden: "Kijk, jij twijfelt veel meer bij deze groep mensen. Dat betekent dat je ze niet goed begrijpt."

Conclusie

Dit onderzoek zegt eigenlijk: "Stop met alleen kijken naar wie de meeste punten haalt. Kijk ook naar wie de meeste twijfels heeft."

Als we naar die twijfels kijken, kunnen we de computers beter leren en eerlijker maken. Zo zorgen we ervoor dat de "rechercheurs" op sociale media voor iedereen hetzelfde zijn, of je nu een blanke man bent of een niet-blanke vrouw. Het is een manier om te voorkomen dat technologie de ongelijkheid in de wereld alleen maar verergert.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Measuring models bias in content moderation through uncertainty" in het Nederlands.

Probleemstelling

Automatische contentmoderatie is cruciaal voor de veiligheid op sociale media, waarbij taalkundige modellen (LMs) en grote taalkundige modellen (LLMs) steeds vaker worden ingezet als "straatniveau-algoritmen" om regels af te dwingen. Hoewel er benchmarks bestaan om de prestaties van deze modellen te meten, blijft het meten van fairness (eerlijkheid) en het detecteren van bias tegenover kwetsbare groepen een open probleem.

Bestaande methoden focussen vaak op nauwkeurigheidsmetrieken (zoals de F1-score), maar deze kunnen systematische discriminatie maskeren. Modellen kunnen hoge nauwkeurigheid behalen terwijl ze toch vooroordelen vertonen tegenover specifieke bevolkingsgroepen (bijv. niet-witte mensen of vrouwen), vooral omdat hun meningen en interpretaties van "toxisch" taalgebruik minder goed vertegenwoordigd zijn in de trainingsdata. Het paper stelt dat het meten van de onzekerheid (uncertainty) van een model een betere indicator kan zijn voor deze verborgen bias dan traditionele prestatie-metrieken.

Methodologie

De auteurs introduceren een onzupervised aanpak die gebruikmaakt van het kader van conformal prediction om de onzekerheid van modellen te kwantificeren. In plaats van alleen te kijken naar of een label correct is, analyseren ze hoe zeker het model is in zijn voorspelling ten opzichte van annotatoren uit verschillende socio-demografische groepen.

De kern van de methodologie omvat:

Datasets: Twee gedetailleerde corpora voor hate speech-detectie met informatie over de annotatoren (geslacht en etniciteit):
- SBIC (Social Bias Inference Corpus): 44.671 berichten, gemiddeld 3,2 annotaties per bericht.
- CREHate: 1.580 berichten, gemiddeld 26,9 annotaties per bericht (hoge variatie in meningen).
- De groepen zijn onderverdeeld in: Witte mannen, Witte vrouwen, Niet-witte mannen, en Niet-witte vrouwen.
Modellen: Een benchmark van 11 modellen:
- 8 fijn-afgestemde taalkundige modellen (fine-tuned LMs) zoals HateBert, Dynabench, Refugees, etc.
- 3 Large Language Models (LLMs) in een zero-shot setting: Mistral, Olmo, en Bloom.
Kernmetrieken:
- Brier Score: Gebruikt als conformiteitscore om de alignatie tussen de voorspelde waarschijnlijkheid en de werkelijke label te meten. Een lagere score betekent minder onzekerheid.
- Conformity Delta ( $\Delta$ ): Meet de variabiliteit in het vertrouwen van het model wanneer voorspellingen worden vergeleken met individuele annotaties versus een "gouden standaard" (meerderheidsstem).
- Uncertainty Divergence: Gebruikt de Kullback-Leibler-divergentie om te meten hoe sterk de verdeling van onzekerheidsscores afwijkt tussen de totale dataset en specifieke demografische groepen. Een hoge divergentie wijst op bias.
- Demographic Divergence: Gebruikt de Jensen-Shannon-divergentie om te evalueren of de clustering van annotatoren op basis van hun onzekerheidsprofiel eerlijk verdeeld is over de demografische groepen. Als een cluster uitsluitend uit één groep bestaat, is het model niet eerlijk.

Belangrijkste Bijdragen

Onzupervised Bias-detectie: Een nieuwe methode die onzekerheid gebruikt als proxy om de eerlijkheid van modellen te beoordelen zonder afhankelijk te zijn van vooraf gedefinieerde "correcte" labels.
Benchmarking: Een uitgebreide analyse van 11 NLP-systemen, waarbij wordt aangetoond dat sommige modellen beter aligneren met de perspectieven van kwetsbare groepen dan andere, zelfs als hun algemene F1-score vergelijkbaar is.
Representatie via Onzekerheid: Het aantonen dat het representeren van gebruikers via de "onzekerheidsvingerafdruk" van een model effectief is om te zien welke groepen beter vertegenwoordigd zijn in de pre-trainingsdata en welke groepen systematisch worden genegeerd.

Resultaten

De resultaten tonen duidelijke patronen van verborgen discriminatie die niet zichtbaar zijn in de F1-score:

Geen correlatie met Prestaties: Er is geen significante correlatie tussen de F1-score en de onzekerheid (Conformity Delta). Modellen met een hoge F1-score kunnen toch hoge onzekerheid vertonen bij het classificeren van berichten van niet-witte mensen.
Systeematische Bias: De meeste modellen vertonen de laagste onzekerheid (hoogste vertrouwen) bij het voorspellen van labels van mannen en de hoogste onzekerheid bij labels van niet-witte mensen. Dit suggereert dat de modellen minder zeker zijn over de percepties van niet-witte gemeenschappen.
LLMs vs. Fine-tuned LMs:
- LLMs (zoals Mistral, Olmo, Bloom) vertonen over het algemeen een hogere onzekerheid dan fijn-afgestemde modellen, wat wijst op een grotere kans op misalignement.
- Mistral-7B presteert echter het beste in termen van een balans tussen prestatie en eerlijkheid (lage Demographic Divergence).
- Olmo-7B en MuRIL vertonen hoge Demographic Divergence, wat betekent dat hun onzekerheid oneerlijk is verdeeld over de groepen (bijv. veel hogere onzekerheid bij vrouwen of niet-witte vrouwen).
Dataset Verschillen: De resultaten variëren sterk tussen SBIC en CREHate, wat wijst op de invloed van de samenstelling van de annotatoren en het aantal annotaties per bericht op de gemeten bias.

Betekenis en Conclusie

Dit paper biedt een paradigmaverschuiving in hoe we contentmoderatiemodellen evalueren. Het toont aan dat onzekerheid een krachtig instrument is om sociale bias te detecteren die door traditionele metrieken wordt gemaskeerd.

Praktische Implicatie: Door de onzekerheid van modellen te monitoren, kunnen ontwikkelaars zien welke groepen slecht worden vertegenwoordigd in hun modellen voordat deze in productie gaan. Dit stelt hen in staat gerichte debiasing toe te passen.
Toekomstige Werk: De auteurs suggereren het gebruik van onzekerheid tijdens het fijn-afstemmen (fine-tuning) en actief leren om bias te verminderen.
Beperkingen: De studie is beperkt tot de dimensies geslacht en etniciteit (binair) en hate speech. De auteurs erkennen dat niet-binaire identiteiten en andere dimensies in toekomstig werk moeten worden meegenomen.

Kortom, het paper bevestigt dat het meten van het vertrouwen van een model in zijn voorspellingen een noodzakelijke stap is om eerlijke en inclusieve AI-systemen voor contentmoderatie te bouwen.

Are you sure? Measuring models bias in content moderation through uncertainty

1. Het oude meetlatje: "Hoe vaak heb je gelijk?"

2. De nieuwe meetlat: "Hoe zeker ben je?"

3. Wat hebben ze ontdekt?

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Leveraging GANs for citation intent classification and its impact on citation network analysis

Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings

Markovian Transformers for Informative Language Modeling

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review