Ursprüngliche Autoren: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Veröffentlicht 2026-05-13✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das Kernproblem: Die Falle der „schlechten Wörter"

Stellen Sie sich vor, Sie sind Sicherheitskraft in einem Club. Ihre Aufgabe ist es, zu verhindern, dass Leute unhöflich oder schädlich werden. Derzeit arbeiten die meisten automatisierten Sicherheitskräfte (KI-gestützte Toxizitätsdetektoren) wie ein Metalldetektor am Flughafen.

Wenn der Metalldetektor piept, geht er davon aus, dass eine Waffe vorhanden ist. Ihn interessiert nicht, warum das Metall da ist.

Wenn Sie ein Messer halten, um ein Steak zu schneiden, piept es.
Wenn Sie ein Messer halten, um jemanden zu bedrohen, piept es.
Wenn Sie ein Spielzeugmesser aus einem Halloween-Kostüm halten, piept es.

Die aktuellen KI-Modelle verhalten sich genau wie dieser Metalldetektor. Sie scannen einen Satz, finden „schlechte Wörter" (wie Beleidigungen oder Schimpfwörter) und markieren ihn sofort als toxisch. Sie betrachten die Wörter selbst als Gefahr, unabhängig davon, wer sie sagt, wer zuhört oder was um sie herum passiert.

Das Paper argumentiert, dass dies eine fehlerhafte Methode ist, um Schaden zu messen. Nur weil ein Satz ein „schlechtes Wort" enthält, bedeutet das nicht, dass er in diesem spezifischen Moment jemanden tatsächlich verletzt.

Die echte Lösung: Das „Kontextuelle Stress"-Rahmenwerk

Die Autoren schlagen einen neuen Weg vor, über Toxizität nachzudenken, das sogenannte Contextual Stress Framework (CSF).

Anstatt zu fragen: „Enthält dieser Satz schlechte Wörter?", fragen sie: „Verursacht diese spezifische Botschaft, an diese spezifische Person, in dieser spezifischen Situation Stress und verstößt sie gegen die Regeln des Raums?"

Stellen Sie sich einen menschlichen Türsteher vor, der den Kontext kennt:

Szenario A: Zwei Freunde scherzen herum. Einer sagt ein Wort, das normalerweise eine Beleidigung ist, aber sie verwenden es als Kosewort untereinander. Der menschliche Türsteher sieht, dass sie lachen, und kennt die Freundschaft. Urteil: Kein Schaden.
Szenario B: Ein Fremder sagt dasselbe Wort zu einem Freund in einer öffentlichen Auseinandersetzung. Der menschliche Türsteher sieht die Angst in den Augen des Freundes. Urteil: Schädlich.

Das Paper behauptet, dass Toxizität keine Eigenschaft der Wörter selbst ist; sie ist eine Beziehung zwischen Sprecher, Hörer und Situation.

Warum die alte Methode versagt (die „Fehlalarme" und „übersehenen Gefahren")

Da die aktuelle KI wie ein Metalldetektor funktioniert, macht sie zwei große Fehler:

Fehlalarme (Unsere Unschuldigen werden erwischt): Sie verbietet harmlose Rede, weil sie „schlechte Wörter" enthält.
- Beispiel: In einigen Gemeinschaften eignen sich Menschen beleidigende Wörter an, um Solidarität zu zeigen. Wenn eine KI dieses Wort sieht, verbietet sie den Beitrag und verstummt eine Gemeinschaft, die tatsächlich Spaß hat und sich verbindet.
Übersehene Gefahren (Die echte Gefahr wird übersehen): Sie übersieht schädliche Rede, die keine „schlechten Wörter" verwendet.
- Beispiel: Eine Person könnte sagen: „Sie sind so ruhig, Sie müssen nichts Kluges zu sagen haben", in einem sehr höflichen Ton. Es klingt nett, ist aber eine grausame Beleidigung, die jemanden zum Schweigen bringen soll. Die KI sieht keine „schlechten Wörter" und lässt es passieren, während das Opfer sich verletzt fühlt.

Der neue Test: Messen von „Stress" statt von „Bösartigkeit"

Die Autoren schlagen vor, aufzuhören, einen Satz mit einem einzigen Score als „Toxisch" oder „Nicht toxisch" zu labeln. Stattdessen sollten wir Stress und Normverletzung messen.

Normverletzung: Hat der Sprecher die sozialen Regeln dieser spezifischen Gruppe gebrochen?
Stress: Hat der Hörer (oder die Gruppe) mit Wut, Angst oder Rückzug reagiert?

Sie testeten diese Idee, indem sie eine Reddit-Community namens r/BlackPeopleTwitter untersuchten. Sie verglichen, was die KI als toxisch ansah, mit dem, worauf die tatsächlichen Menschen in der Community reagierten.

Das Ergebnis: Die KI und die Menschen waren oft anderer Meinung. Die KI markierte freundliche Witze als toxisch, aber die Menschen lachten. Die KI übersah subtile, gemeine Kommentare, die die Menschen als verletzend empfanden.
Die Lehre: Man kann Schaden nicht allein durch das Lesen des Textes beurteilen; man muss sehen, wie die Menschen darauf reagieren.

Der Vorschlag: Ein neuer Zeugnisbogen (CSF-Eval)

Das Paper schlägt eine neue Art vor, diese KI-Systeme zu testen und zu entwickeln, genannt CSF-Eval.

Anstatt einer KI eine einzige Note zu geben (wie „90 % genau"), sollten wir sie bitten, ihr Denken in fünf Teile zu zerlegen, wie ein Arztbericht:

Textrisiko: Sieht der Text für sich allein gefährlich aus?
Normverletzung: Verstößt er gegen die Regeln dieser spezifischen Gruppe?
Stress/Störung: Gibt es Hinweise darauf, dass Menschen verärgert sind oder streiten?
Unsicherheit: „Ich habe nicht genug Informationen, um zu wissen, ob dies schlecht ist." (Die KI sollte zugeben, wenn sie rät).
Politikmaßnahme: „Basierend auf dem Vorstehenden ist dies, was wir tun sollten."

Das Fazit

Das Paper kommt zu dem Schluss, dass wir aufhören müssen, so zu tun, als ob Schaden in einem Satz versteckt wäre und darauf wartet, gefunden zu werden.

Schaden wird erschaffen, wenn eine Nachricht in einem spezifischen Kontext empfangen wird. Um sicherere Online-Räume zu schaffen, brauchen wir KI, die den Unterschied zwischen einem Witz unter Freunden und einer Waffe in einem Kampf versteht, anstatt nur eine Maschine, die zählt, wie viele „schlechte Wörter" in einem Raum sind.

Technische Zusammenfassung: Toxizitätserkennung sollte kontextuelle Schäden messen, nicht textimmanente Schlechtigkeit

1. Problemstellung

Aktuelle Systeme zur Toxizitätserkennung beruhen auf einer fehlerhaften Abstraktion: Sie behandeln Toxizität als eine inhärente Eigenschaft isolierter Textzeichenketten ( $y = f(x)$ ). Dieser Ansatz reduziert kritische Determinanten kommunikativer Schäden – wie Sprecher, Publikum, Interaktionsgeschichte, normativer Rahmen und Rezeption – auf eine einzige entkontextualisierte Vorhersage.

Die Arbeit identifiziert zwei Kernfehler, die aus dieser Abstraktion resultieren:

Das Objektproblem: Es gibt keine feststehende Definition von Toxizität. Juristische, plattformbezogene und akademische Gemeinschaften verwenden sich überschneidende, aber nicht äquivalente Begriffe (z. B. „hassend", „missbräuchlich", „unzivilisiert"). Folglich kann dieselbe Äußerung je nach Datensatz rechtlich geschützt, gemäß Richtlinie entfernbar oder sowohl als toxisch als auch als nicht-toxisch gekennzeichnet sein, wodurch Fortschritte bei Benchmarks zu einem irreführenden Indikator für Sicherheit werden.
Das Proxy-Problem: Indem Toxizität als Text-zu-Label-Mapping operationalisiert wird, erfassen Detektoren keine situierte kommunikative Schädigung. Dies führt zu systematischen Fehlern: Übermarkierung dialektaler oder rekontextualisierter Sprache (falsch-positive Ergebnisse) und Übersehen von kodierter, pragmatischer oder kontextabhängiger Missbrauchssprache (falsch-negative Ergebnisse). Darüber hinaus sind diese Systeme gegenüber bedeutungserhaltenden Transformationen und adversarialen Angriffen brüchig.

Die Autoren argumentieren, dass die Benchmark-Genauigkeit bei entkontextualisierten Labels oft eher die Fähigkeit eines Modells widerspiegelt, datensatzspezifische Annotationskonventionen zu erlernen, als seine Kapazität, Schäden in realen, situierten Umgebungen zu reduzieren.

2. Methodik und Rahmenwerk: Kontext-Stress-Rahmenwerk (CSF)

Um diese Probleme zu adressieren, schlagen die Autoren das Kontext-Stress-Rahmenwerk (CSF) vor, das Toxizität nicht als Eigenschaft von Text, sondern als kontextuelle Relation neu fasst.

Kernbegriffe

Toxizität: Definiert als Relation zwischen einem kommunikativen Akt, einem interpretierenden Publikum und einem normativen Rahmen, bei der eine wahrgenommene Normverletzung Stress oder Störung auslöst.
Toxische Sprache: Sprache, die durch eine wahrgenommene Verletzung akzeptierter moralischer oder kommunikativer Normen innerhalb des spezifischen Interpretationskontexts Stress oder Störung auslöst.

Mathematische Formulierung

Das Rahmenwerk modelliert ein kommunikatives Ereignis als $e = (x, C, A)$ , wobei $x$ der Akt, $C$ der Kontext und $A$ das Publikum ist.

Wahrgenommene Normverletzung ( $\nu$ ): Der Grad, in dem ein Publikumsteilnehmer das Ereignis als Verletzung relevanter Normen wahrnimmt. Dies wird als wahrgenommene Verletzung definiert, nicht als objektive moralische Wahrheit.
Stressreaktion ( $\sigma$ ): Der Stress oder die Störung, die beim Publikumsteilnehmer ausgelöst wird.
Individuelle Toxizität ( $\tau$ ): Eine Funktion $g(\nu, \sigma)$ , die wahrgenommene Verletzung und Stress kombiniert. Die Funktion ist in beiden Argumenten monoton und weist eine nahezu null Toxizität zu, wenn eine der Komponenten fehlt.
Ereignisbezogene Toxizität ( $T$ ): Eine Aggregation individueller Toxizitäten über das relevante Publikum hinweg, gewichtet nach Faktoren wie Exposition, Relevanz oder Verletzlichkeit.

Messstrategie

Die Arbeit unterscheidet zwischen textimmanentem Risiko (lexikalische Hinweise) und rezeptionsbasierter Störung (beobachtbarer Stress). Für Online-NLP-Systeme, bei denen physiologische Daten nicht verfügbar sind, schlägt das Rahmenwerk die Verwendung von Verhaltensproxys für Stress vor, wie z. B. Eskalation von Antworten, Rückzug, Tonwechsel oder affektive Sprache in den Antworten.

3. Hauptbeiträge

A. Theoretische Neuorientierung

Die Arbeit verlagert den Fokus des Feldes von Textklassifizierung hin zur Messung kontextueller Schäden. Sie argumentiert, dass Kontext nicht lediglich ein auxiliares Merkmal zur Verbesserung der Vorhersagegenauigkeit ist, sondern konstitutiv für die Zielvariable. Toxizität ist eine emergente Eigenschaft der Interaktion zwischen Text, Publikum und Normen.

B. Das Kontext-Stress-Rahmenwerk (CSF)

CSF bietet eine formale Struktur zur Trennung von:

Textimmanenten Hinweisen.
Kontextuellen Annahmen.
Publikumsmerkmalen.
Wahrgenommener Normverletzung.
Rezeptions-/Stresssignalen.
Unsicherheit.
Richtlinienvorschriften.

C. CSF-Eval: Eine neue Evaluierungsagenda

Die Autoren schlagen CSF-Eval vor, ein Evaluierungsrahmenwerk, das über die Genauigkeit einzelner Labels hinausgeht. Es verlangt von Systemen die Ausgabe eines Messvektors $M(e) = (r_{text}, \hat{\nu}, \hat{\sigma}, u, \pi)$ , der darstellt:

$r_{text}$ : Textimmanentes Risiko.
$\hat{\nu}$ : Geschätzte wahrgenommene Normverletzung.
$\hat{\sigma}$ : Geschätzter Stress/die Störung.
$u$ : Unsicherheit unter partieller Beobachtbarkeit.
$\pi$ : Richtlinienempfehlung (explizit getrennt von der Messung).

CSF-Eval bewertet Systeme über fünf kontrastierende Schnitte:

Derselbe Text, anderer Kontext: Prüfung, ob das System erkennt, dass dieselben Wörter je nach Publikum und Setting unterschiedlich funktionieren.
Andere Form, gleicher Schaden: Prüfung, ob das System kodierten oder pragmatischen Missbrauch erkennt, ohne sich auf offensichtliche toxische Marker zu verlassen.
Fehlender Kontext: Prüfung, ob das System Unsicherheit ausdrückt oder sich zurückhält, wenn der Kontext unvollständig ist, anstatt ein selbstsicheres Label zu erzwingen.
Rezeptions- und Störungssignale: Prüfung, ob das System verhaltensbezogene Beweise (z. B. Eskalation) als verrauschte Beweise für Störung nutzt.
Trennung von Messung und Politik: Prüfung, ob das System zwischen der Schätzung von Schaden und der Durchsetzung von Politik unterscheidet.

4. Empirische Ergebnisse

Die Autoren liefern eine illustrative Untersuchung mit Daten aus dem Subreddit r/BlackPeopleTwitter, um die Divergenz zwischen textimmanenter Toxizität und rezeptionsbasierter Störung zu demonstrieren.

Methodik: Sie verglichen die OpenAI Moderation API und die Google Perspective API (textimmanente Detektoren) mit PONOS (Proportion of Negative Observed Signals), einer Metrik, die den Anteil von Antworten misst, die negative Reaktionen ausdrücken.
Ergebnisse:
- Es bestand eine schwache Korrelation zwischen textimmanenten Scores und PONOS ( $\rho \approx 0,20$ ).
- Umgekehrt korrelierten die beiden textimmanenten APIs stark miteinander ( $\rho \approx 0,87$ ).
- Quadrantenanalyse:
  - LH (Niedrige PONOS, hohe Texttoxizität): 14,5 % der Beiträge wurden übermarkiert. Diese beinhalteten oft In-Group-Solidarität, rekontextualisierte Sprache oder dialektalen Humor (z. B. „That's my n***a!").
  - HL (Hohe PONOS, niedrige Texttoxizität): 14,4 % der Beiträge wurden übersehen. Diese beinhalteten Sarkasmus, pragmatische Konfrontation oder kontextspezifische Normverletzungen, die keine expliziten Beleidigungen enthielten.
Fazit: Textimmanentes Risiko und rezeptionsbasierte Störung sind unterschiedliche Größen. Aktuelle Detektoren versagen systematisch darin, mit der tatsächlichen Gemeinschaftsstörung in Einklang zu stehen, insbesondere in kontexten mit starkem Dialektgebrauch oder rekontextualisierter Sprache.

5. Bedeutung und Behauptungen

Die Arbeit behauptet, dass sich die Toxizitätserkennung von der Vorhersage von Datensatz-Labels hin zur Messung situierten kommunikativen Schadens entwickeln muss. Ihre Bedeutung liegt in:

Korrektur des Messziels: Sie argumentiert, dass sicherheitskritische Systeme nicht so tun können, als sei isolierter Text ausreichend. Durch die Trennung von Textrisiko und Rezeption erklärt CSF, warum aktuelle Modelle Dialekte übermarkieren und pragmatischen Missbrauch übersehen.
Operationalisierung von Unsicherheit: Sie schlägt vor, dass „fehlender Kontext" als Fehlerzustand behandelt werden sollte, der von Systemen verlangt, Unsicherheit auszudrücken oder sich zurückzuhalten, anstatt übermäßig selbstsichere, potenziell schädliche Labels zu generieren.
Entkopplung von Messung und Durchsetzung: Sie befürwortet die Trennung der Schätzung von Schaden (Messung) von der Entscheidung, Inhalte zu entfernen oder herabzustufen (Politik), was transparentere und rechenschaftspflichtigere Moderation ermöglicht.
Benchmark-Reform: Sie fordert die Gemeinschaft auf, CSF-Eval-Standards zu übernehmen, die verlangen, dass Benchmarks leistungsbezogene Daten auf Schnittebene (z. B. Kontextverschiebungen, fehlende Daten) berichten, anstatt aggregierte Genauigkeit, und explizit dokumentieren, wessen Perspektive und welche kontextuellen Signale repräsentiert sind.

Die Autoren nehmen eine bescheidene Haltung ein und erkennen an, dass Toxizität nicht perfekt gemessen werden kann und dass der volle Kontext in der Echtzeit-Bereitstellung oft nicht verfügbar ist. Sie argumentieren jedoch, dass die Anerkennung partieller Beobachtbarkeit und die Modellierung von Unsicherheit ein notwendiger Schritt hin zu sichereren, robusteren Moderationssystemen ist.

Toxicity Detection Should Measure Contextual Harm, Not Text-Intrinsic Badness