Oorspronkelijke auteurs: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Gepubliceerd 2026-05-13✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Kernprobleem: De "Slechte Woorden"-Valstrik

Stel je voor dat je een portier bent bij een club. Je taak is om te voorkomen dat mensen onbeleefd of schadelijk zijn. Op dit moment werken de meeste geautomatiseerde portiers (AI-toxiciteitsdetectoren) als een metaaldetector op een vliegveld.

Als de metaaldetector piept, gaat hij ervan uit dat er een wapen is. Het maakt hem niet uit waarom het metaal daar is.

Als je een mes vasthoudt om een biefstuk te snijden, piept het.
Als je een mes vasthoudt om iemand te bedreigen, piept het.
Als je een speelgoedmes vasthoudt uit een Halloween-kostuum, piept het.

De huidige AI-modellen gedragen zich precies zoals deze metaaldetector. Ze scannen een zin, vinden "slechte woorden" (zoals scheldwoorden of beledigingen) en markeren deze direct als giftig. Ze behandelen de woorden zelf als het gevaar, ongeacht wie ze zegt, wie luistert of wat er om hen heen gebeurt.

Het artikel betoogt dat dit een gebrekkige manier is om schade te meten. Alleen omdat een zin een "slecht woord" bevat, betekent niet dat het op dat specifieke moment iemand echt pijn doet.

De Echte Oplossing: Het "Contextuele Stress"-Kader

De auteurs stellen een nieuwe manier voor om na te denken over giftigheid, genaamd het Contextual Stress Framework (CSF) (Contextuele Stress Kader).

In plaats van te vragen: "Bevat deze zin slechte woorden?", vragen ze: "Veroorzaakt dit specifieke bericht, voor deze specifieke persoon, in deze specifieke situatie, stress en schendt het de regels van de ruimte?"

Denk eraan als een menselijke bouncer die de context kent:

Situatie A: Twee vrienden maken grapjes. De ene zegt een woord dat normaal gesproken een scheldwoord is, maar ze gebruiken het als een teken van genegenheid tussen hen. De menselijke bouncer ziet dat ze lachen en kent hun vriendschap. Uitspraak: Geen schade.
Situatie B: Een vreemde zegt datzelfde woord tegen een vriend in een openbaar ruzie. De menselijke bouncer ziet de angst in de ogen van de vriend. Uitspraak: Schadelijk.

Het artikel stelt dat giftigheid geen eigenschap is van de woorden zelf; het is een relatie tussen de spreker, de luisteraar en de situatie.

Waarom de Oude Manier Faalt (De "Valse Alarmen" en "Gemiste Gevaren")

Omdat de huidige AI als een metaaldetector werkt, maakt hij twee grote fouten:

Valse Positieven (De Onschuldige Vangen): Het verbiedt onschadelijke spraak omdat het "slechte woorden" bevat.
- Voorbeeld: In sommige gemeenschappen nemen mensen beledigende woorden over om solidariteit te tonen. Als een AI dat woord ziet, verbiedt het de post en zwijgt een gemeenschap die eigenlijk plezier heeft en een band smeedt.
Valse Negatieven (Het Echte Gevaar Missen): Het mist schadelijke spraak die geen "slechte woorden" gebruikt.
- Voorbeeld: Iemand kan zeggen: "Je bent zo stil, je moet niets slims te zeggen hebben," in een zeer beleefde toon. Het klinkt aardig, maar het is een wrede belediging die iemand de mond wil snoeren. De AI ziet geen "slechte woorden" en laat het passeren, terwijl het slachtoffer zich gekwetst voelt.

De Nieuwe Test: "Stress" Meten in plaats van "Slechtheid"

De auteurs stellen voor dat we stoppen met het labelen van een zin als "Giftig" of "Niet Giftig" met één enkele score. In plaats daarvan moeten we Stress en Normschending meten.

Normschending: Heeft de spreker de sociale regels van deze specifieke groep geschonden?
Stress: Reageerde de luisteraar (of de groep) met woede, angst of terugtrekking?

Ze testten dit idee door te kijken naar een Reddit-gemeenschap genaamd r/BlackPeopleTwitter. Ze vergeleken wat de AI giftig vond met hoe de echte mensen in de gemeenschap reageerden.

Het Resultaat: De AI en de mensen waren het vaak oneens. De AI markeerde vriendelijke grapjes als giftig, maar de mensen lachten. De AI miste subtiele, kwaadaardige opmerkingen die de mensen pijnlijk vonden.
De Les: Je kunt schade niet beoordelen door alleen de tekst te lezen; je moet zien hoe de mensen erop reageren.

Het Voorstel: Een Nieuw Rapportkaart (CSF-Eval)

Het artikel stelt een nieuwe manier voor om deze AI-systemen te testen en te bouwen, genaamd CSF-Eval.

In plaats van een AI een enkele cijfer te geven (zoals "90% accuraat"), moeten we vragen om zijn denken op te splitsen in vijf delen, zoals een doktersrapport:

Tekstrisico: Ziet de tekst er op zichzelf gevaarlijk uit?
Normschending: Schendt het de regels van deze specifieke groep?
Stress/Disruptie: Is er bewijs dat mensen boos zijn of ruzie maken?
Onzekerheid: "Ik heb niet genoeg informatie om te weten of dit slecht is." (De AI moet toegeven wanneer het gokt).
Beleidshandeling: "Op basis van het bovenstaande, dit is wat we moeten doen."

De Conclusie

Het artikel concludeert dat we moeten stoppen met doen alsof schade verborgen zit in een zin en wacht om gevonden te worden.

Schade wordt gemaakt wanneer een bericht wordt ontvangen in een specifieke context. Om veiligere online ruimtes te bouwen, hebben we AI nodig die het verschil begrijpt tussen een grapje onder vrienden en een wapen in een gevecht, in plaats van alleen een machine die telt hoeveel "slechte woorden" er in een kamer zijn.

Technische Samenvatting: Toxiciteitsdetectie Moet Contextuele Schade Meten, Niet Inherent Slechtheid van Tekst

1. Probleemstelling

Huidige systemen voor toxiciteitsdetectie vertrouwen op een gebrekkige abstractie: ze behandelen toxiciteit als een intrinsieke eigenschap van geïsoleerde tekststrings ( $y = f(x)$ ). Deze benadering reduceert kritische determinanten van communicatieve schade – zoals de spreker, het publiek, de interactiegeschiedenis, de normatieve setting en de receptie – tot een enkele gedecontextualiseerde voorspelling.

Het artikel identificeert twee kernfalen die voortvloeien uit deze abstractie:

Het Objectprobleem: Er bestaat geen vaststaande definitie van toxiciteit. Juridische, platform- en academische gemeenschappen gebruiken overlappende maar niet-equivalente concepten (bijvoorbeeld "haatdragend", "beledigend", "onbeschaafd"). Bijgevolg kan dezelfde uiting juridisch beschermd zijn, verwijderbaar volgens het beleid, of zowel als toxisch als niet-toxisch worden bestempeld, afhankelijk van de dataset. Hierdoor is vooruitgang in benchmarks een misleidend indicator voor veiligheid.
Het Proxy-probleem: Door toxiciteit te operationaliseren als een mapping van tekst naar label, slagen detectoren er niet in om situated communicatieve schade te vatten. Dit leidt tot systematische fouten: over-flaggen van dialectale of heroverwonnen taal (vals-positieven) en het missen van gecodeerd, pragmatisch of contextafhankelijk misbruik (vals-negatieven). Bovendien zijn deze systemen breekbaar onder betekenisbehoudende transformaties en adversariale aanvallen.

De auteurs betogen dat benchmarknauwkeurigheid op gedecontextualiseerde labels vaak de vaardigheid van een model weerspiegelt om dataset-specifieke annotatieconventies te leren, in plaats van het vermogen om schade te verminderen in real-world, situated omgevingen.

2. Methodologie en Kader: Contextual Stress Framework (CSF)

Om deze problemen aan te pakken, stellen de auteurs het Contextual Stress Framework (CSF) voor, dat toxiciteit niet als een eigenschap van tekst, maar als een contextuele relatie herformuleert.

Kerndefinities

Toxiciteit: Gedefinieerd als een relatie tussen een communicatieve handeling, een interpreterend publiek en een normatieve setting, waarbij een gepercipieerde normschending stress of verstoring induceert.
Toxische Spraak: Spraak die stress of verstoring induceert door een gepercipieerde schending van geaccepteerde morele of communicatieve normen binnen de specifieke context van interpretatie.

Wiskundige Formulering

Het kader modelleert een communicatief evenement als $e = (x, C, A)$ , waarbij $x$ de handeling is, $C$ de context en $A$ het publiek.

Gepercipieerde Normschending ( $\nu$ ): De mate waarin een publiekslid het evenement als schending van relevante normen percipieert. Dit wordt gedefinieerd als gepercipieerde schending, niet als objectieve morele waarheid.
Stressrespons ( $\sigma$ ): De stress of verstoring die wordt geïnduceerd bij het publiekslid.
Individuele Toxiciteit ( $\tau$ ): Een functie $g(\nu, \sigma)$ die gepercipieerde schending en stress combineert. De functie is monotoon in beide argumenten en kent bijna geen toxiciteit toe als een van beide componenten afwezig is.
Toxiciteit op Event-niveau ( $T$ ): Een aggregatie van individuele toxiciteiten over het relevante publiek, gewogen door factoren zoals blootstelling, relevantie of kwetsbaarheid.

Meetstrategie

Het artikel onderscheidt tussen inherent risico van tekst (lexicale aanwijzingen) en receptie-gebaseerde verstoring (observeerbare stress). Voor online NLP-systemen, waar fysiologische data niet beschikbaar is, stelt het kader het gebruik voor van gedragsproxies voor stress, zoals escalatie van antwoorden, terugtrekking, toonverschuivingen of affectieve taal in reacties.

3. Belangrijkste Bijdragen

A. Theoretische Herformulering

Het artikel verschuift de focus van het vakgebied van tekstclassificatie naar meting van contextuele schade. Het betoogt dat context niet slechts een aanvullend kenmerk is om voorspellingsnauwkeurigheid te verbeteren, maar constitutief is voor de doelvariabele. Toxiciteit is een emergente eigenschap van de interactie tussen tekst, publiek en normen.

B. Het Contextual Stress Framework (CSF)

CSF biedt een formele structuur om te scheiden tussen:

Inherent tekstaanwijzingen.
Contextuele aannames.
Publiekkenmerken.
Gepercipieerde normschending.
Receptie-/stresssignalen.
Onzekerheid.
Beleidsregels.

C. CSF-Eval: Een Nieuw Evaluatie-agenda

De auteurs stellen CSF-Eval voor, een evaluatiekader dat verder gaat dan nauwkeurigheid op één label. Het vereist dat systemen een meetvector uitvoeren $M(e) = (r_{text}, \hat{\nu}, \hat{\sigma}, u, \pi)$ , die vertegenwoordigt:

$r_{text}$ : Inherent risico van tekst.
$\hat{\nu}$ : Geschatte gepercipieerde normschending.
$\hat{\sigma}$ : Geschatte stress/verstoring.
$u$ : Onzekerheid onder partiële waarneembaarheid.
$\pi$ : Beleidsaanbeveling (expliciet gescheiden van meting).

CSF-Eval evalueert systemen over vijf contrastieve slices:

Zelfde tekst, verschillende context: Testen of het systeem herkent dat dezelfde woorden verschillend functioneren op basis van publiek en setting.
Verschillende vorm, dezelfde schade: Testen of het systeem gecodeerd of pragmatisch misbruik detecteert zonder te vertrouwen op openlijke toxische markers.
Ontbrekende context: Testen of het systeem onzekerheid uitdrukt of zich onthoudt wanneer de context onvolledig is, in plaats van een zelfverzekerd label te forceren.
Receptie- en verstoringssignalen: Testen of het systeem gedragsbewijs (bijvoorbeeld escalatie) gebruikt als ruisachtig bewijs van verstoring.
Scheiding meting-beleid: Testen of het systeem onderscheid maakt tussen het schatten van schade en het afdwingen van beleid.

4. Empirische Resultaten

De auteurs leveren een illustratieve probe met data van de subreddit r/BlackPeopleTwitter om de divergentie tussen inherent risico van tekst en receptie-gebaseerde verstoring aan te tonen.

Methodologie: Ze vergeleken de OpenAI Moderation API en Google Perspective API (inherent tekstdetectoren) met PONOS (Proportion of Negative Observed Signals), een metriek die het aandeel reacties meet dat negatieve reacties uitdrukt.
Vondsten:
- Er was een zwakke correlatie tussen inherent scores en PONOS ( $\rho \approx 0,20$ ).
- Omgekeerd correleerden de twee inherent APIs sterk met elkaar ( $\rho \approx 0,87$ ).
- Kwadrantenanalyse:
  - LH (Laag PONOS, Hoge Teksttoxiciteit): 14,5% van de posts werd over-flagged. Deze betroffen vaak solidariteit binnen de groep, heroverwonnen taal of dialectale humor (bijvoorbeeld "That's my n***a!").
  - HL (Hoog PONOS, Lage Teksttoxiciteit): 14,4% van de posts werd gemist. Deze betroffen sarcasme, pragmatisch antagonisme of contextspecifieke normschendingen die geen expliciete scheldwoorden bevatten.
Conclusie: Inherent risico van tekst en receptie-gebaseerde verstoring zijn distincte grootheden. Huidige detectoren slagen er systematisch niet in om overeen te komen met daadwerkelijke verstoring binnen de gemeenschap, met name in contexten met rijk dialect of heroverwonnen taal.

5. Betekenis en Claims

Het artikel stelt dat toxiciteitsdetectie moet evolueren van het voorspellen van datasetlabels naar het meten van situated communicatieve schade. De betekenis hiervan ligt in:

Correctie van het Meetdoel: Het betoogt dat veiligheidskritieke systemen niet kunnen doen alsof geïsoleerde tekst voldoende is. Door tekstrisico te scheiden van receptie, verklaart CSF waarom huidige modellen dialecten over-flaggen en pragmatisch misbruik missen.
Operationalisering van Onzekerheid: Het stelt voor dat "ontbrekende context" moet worden behandeld als een faalconditie, waarbij systemen onzekerheid moeten uitdrukken of zich moeten onthouden in plaats van zelfzekere, potentieel schadelijke labels te genereren.
Koppeling van Meting en Handhaving: Het pleit voor het scheiden van de schatting van schade (meting) van de beslissing om content te verwijderen of te downrankeren (beleid), wat zorgt voor transparantere en verantwoorde moderatie.
Benchmarks Reform: Het roept de gemeenschap op om CSF-Eval-standaarden aan te nemen, waarbij benchmarks prestaties op slice-niveau moeten rapporteren (bijvoorbeeld contextverschuivingen, ontbrekende data) in plaats van geaggregeerde nauwkeurigheid, en expliciet moeten documenteren wiens perspectief en welke contextsignalen worden vertegenwoordigd.

De auteurs handhaven een bescheiden standpunt, waarbij ze erkennen dat toxiciteit niet perfect kan worden gemeten en dat volledige context vaak onbeschikbaar is bij realtime implementatie. Ze betogen echter dat het erkennen van partiële waarneembaarheid en het modelleren van onzekerheid een noodzakelijke stap is naar veiligere, robuustere moderatiesystemen.

Toxicity Detection Should Measure Contextual Harm, Not Text-Intrinsic Badness