Toxicity Detection Should Measure Contextual Harm, Not Text-Intrinsic Badness

Dieses Positionspapier argumentiert, dass die Toxizitätserkennung weg von der Behandlung von Toxizität als inhärente Eigenschaft isolierten Textes hin zur Messung als kontextuelle kommunikative Schädlichkeit wechseln sollte, wobei das Contextual Stress Framework (CSF) und CSF-Eval eingeführt werden, um besser zu erfassen, wie wahrgenommene Normverletzungen und sozialer Kontext tatsächliche Störungen erzeugen.

Ursprüngliche Autoren: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Veröffentlicht 2026-05-13✓ Author reviewed
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das Kernproblem: Die Falle der „schlechten Wörter"

Stellen Sie sich vor, Sie sind Sicherheitskraft in einem Club. Ihre Aufgabe ist es, zu verhindern, dass Leute unhöflich oder schädlich werden. Derzeit arbeiten die meisten automatisierten Sicherheitskräfte (KI-gestützte Toxizitätsdetektoren) wie ein Metalldetektor am Flughafen.

Wenn der Metalldetektor piept, geht er davon aus, dass eine Waffe vorhanden ist. Ihn interessiert nicht, warum das Metall da ist.

  • Wenn Sie ein Messer halten, um ein Steak zu schneiden, piept es.
  • Wenn Sie ein Messer halten, um jemanden zu bedrohen, piept es.
  • Wenn Sie ein Spielzeugmesser aus einem Halloween-Kostüm halten, piept es.

Die aktuellen KI-Modelle verhalten sich genau wie dieser Metalldetektor. Sie scannen einen Satz, finden „schlechte Wörter" (wie Beleidigungen oder Schimpfwörter) und markieren ihn sofort als toxisch. Sie betrachten die Wörter selbst als Gefahr, unabhängig davon, wer sie sagt, wer zuhört oder was um sie herum passiert.

Das Paper argumentiert, dass dies eine fehlerhafte Methode ist, um Schaden zu messen. Nur weil ein Satz ein „schlechtes Wort" enthält, bedeutet das nicht, dass er in diesem spezifischen Moment jemanden tatsächlich verletzt.

Die echte Lösung: Das „Kontextuelle Stress"-Rahmenwerk

Die Autoren schlagen einen neuen Weg vor, über Toxizität nachzudenken, das sogenannte Contextual Stress Framework (CSF).

Anstatt zu fragen: „Enthält dieser Satz schlechte Wörter?", fragen sie: „Verursacht diese spezifische Botschaft, an diese spezifische Person, in dieser spezifischen Situation Stress und verstößt sie gegen die Regeln des Raums?"

Stellen Sie sich einen menschlichen Türsteher vor, der den Kontext kennt:

  • Szenario A: Zwei Freunde scherzen herum. Einer sagt ein Wort, das normalerweise eine Beleidigung ist, aber sie verwenden es als Kosewort untereinander. Der menschliche Türsteher sieht, dass sie lachen, und kennt die Freundschaft. Urteil: Kein Schaden.
  • Szenario B: Ein Fremder sagt dasselbe Wort zu einem Freund in einer öffentlichen Auseinandersetzung. Der menschliche Türsteher sieht die Angst in den Augen des Freundes. Urteil: Schädlich.

Das Paper behauptet, dass Toxizität keine Eigenschaft der Wörter selbst ist; sie ist eine Beziehung zwischen Sprecher, Hörer und Situation.

Warum die alte Methode versagt (die „Fehlalarme" und „übersehenen Gefahren")

Da die aktuelle KI wie ein Metalldetektor funktioniert, macht sie zwei große Fehler:

  1. Fehlalarme (Unsere Unschuldigen werden erwischt): Sie verbietet harmlose Rede, weil sie „schlechte Wörter" enthält.
    • Beispiel: In einigen Gemeinschaften eignen sich Menschen beleidigende Wörter an, um Solidarität zu zeigen. Wenn eine KI dieses Wort sieht, verbietet sie den Beitrag und verstummt eine Gemeinschaft, die tatsächlich Spaß hat und sich verbindet.
  2. Übersehene Gefahren (Die echte Gefahr wird übersehen): Sie übersieht schädliche Rede, die keine „schlechten Wörter" verwendet.
    • Beispiel: Eine Person könnte sagen: „Sie sind so ruhig, Sie müssen nichts Kluges zu sagen haben", in einem sehr höflichen Ton. Es klingt nett, ist aber eine grausame Beleidigung, die jemanden zum Schweigen bringen soll. Die KI sieht keine „schlechten Wörter" und lässt es passieren, während das Opfer sich verletzt fühlt.

Der neue Test: Messen von „Stress" statt von „Bösartigkeit"

Die Autoren schlagen vor, aufzuhören, einen Satz mit einem einzigen Score als „Toxisch" oder „Nicht toxisch" zu labeln. Stattdessen sollten wir Stress und Normverletzung messen.

  • Normverletzung: Hat der Sprecher die sozialen Regeln dieser spezifischen Gruppe gebrochen?
  • Stress: Hat der Hörer (oder die Gruppe) mit Wut, Angst oder Rückzug reagiert?

Sie testeten diese Idee, indem sie eine Reddit-Community namens r/BlackPeopleTwitter untersuchten. Sie verglichen, was die KI als toxisch ansah, mit dem, worauf die tatsächlichen Menschen in der Community reagierten.

  • Das Ergebnis: Die KI und die Menschen waren oft anderer Meinung. Die KI markierte freundliche Witze als toxisch, aber die Menschen lachten. Die KI übersah subtile, gemeine Kommentare, die die Menschen als verletzend empfanden.
  • Die Lehre: Man kann Schaden nicht allein durch das Lesen des Textes beurteilen; man muss sehen, wie die Menschen darauf reagieren.

Der Vorschlag: Ein neuer Zeugnisbogen (CSF-Eval)

Das Paper schlägt eine neue Art vor, diese KI-Systeme zu testen und zu entwickeln, genannt CSF-Eval.

Anstatt einer KI eine einzige Note zu geben (wie „90 % genau"), sollten wir sie bitten, ihr Denken in fünf Teile zu zerlegen, wie ein Arztbericht:

  1. Textrisiko: Sieht der Text für sich allein gefährlich aus?
  2. Normverletzung: Verstößt er gegen die Regeln dieser spezifischen Gruppe?
  3. Stress/Störung: Gibt es Hinweise darauf, dass Menschen verärgert sind oder streiten?
  4. Unsicherheit: „Ich habe nicht genug Informationen, um zu wissen, ob dies schlecht ist." (Die KI sollte zugeben, wenn sie rät).
  5. Politikmaßnahme: „Basierend auf dem Vorstehenden ist dies, was wir tun sollten."

Das Fazit

Das Paper kommt zu dem Schluss, dass wir aufhören müssen, so zu tun, als ob Schaden in einem Satz versteckt wäre und darauf wartet, gefunden zu werden.

Schaden wird erschaffen, wenn eine Nachricht in einem spezifischen Kontext empfangen wird. Um sicherere Online-Räume zu schaffen, brauchen wir KI, die den Unterschied zwischen einem Witz unter Freunden und einer Waffe in einem Kampf versteht, anstatt nur eine Maschine, die zählt, wie viele „schlechte Wörter" in einem Raum sind.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →