Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Diese Studie untersucht die Wirksamkeit von Daten-Augmentierung und Feature-Enhancement-Techniken zur Hate-Speech-Erkennung und zeigt, dass das Open-Source-Modell gpt-oss-20b die besten Ergebnisse erzielt, während traditionelle Ansätze wie Delta TF-IDF durch Daten-Augmentierung ebenfalls hohe Genauigkeiten erreichen, wobei die Erkennung impliziter Hassrede weiterhin eine Herausforderung bleibt.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen, Campbell Wilson, Alexandra Phelan, Naomi Pfitzner

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, das Internet ist eine riesige, laute Party. Die meisten Leute unterhalten sich harmlos, aber leider gibt es auch eine kleine Gruppe, die andere beleidigt, bedroht oder hasst. Das Problem ist: Diese "Übeltäter" sind oft sehr schlau. Manchmal schreien sie direkt (das ist expliziter Hass), aber oft flüstern sie nur hinterhältige Dinge, die man nur versteht, wenn man den Kontext kennt (das ist impliziter Hass).

Diese Forscher von der Monash University in Australien haben sich vorgenommen, einen digitalen Bodyguard zu entwickeln, der auf dieser Party Wache steht und genau diese bösen Kommentare erkennt.

Hier ist die Geschichte ihrer Forschung, einfach erklärt:

1. Die Werkzeuge: Vom alten Detektiv zum modernen KI-Genie

Die Forscher haben verschiedene "Detektive" getestet, um zu sehen, wer am besten ist:

  • Der alte Detektiv (Delta TF-IDF): Das ist wie ein Polizist, der nur nach bestimmten Schlüsselwörtern sucht. Er ist altmodisch, schnell und billig, aber er versteht keine Nuancen. Er verwechselt oft harmlose Wörter mit Hass.
  • Die modernen KI-Modelle (Transformer wie BERT, RoBERTa): Das sind wie erfahrene Detektive, die den ganzen Satz lesen und verstehen, wie etwas gesagt wurde. Sie sind schlauer, aber brauchen mehr Rechenleistung.
  • Der Super-Genie (gpt-oss-20b): Das ist der neue Star. Ein riesiges Sprachmodell mit 20 Milliarden Parametern. Es ist wie ein Detektiv, der jede Sprache der Welt kennt und sogar die Gedanken hinter den Worten lesen kann.

Das Ergebnis: Der Super-Genie (gpt-oss-20b) war in fast allen Fällen der Beste. Aber hier kommt die Überraschung: Der alte Detektiv (Delta TF-IDF) wurde durch spezielle Tricks fast so gut wie die modernen KI-Modelle!

2. Die Tricks: Wie man die Detektive trainiert

Das Hauptproblem bei der Party ist, dass die bösen Kommentare viel seltener sind als die guten. Es ist wie nach einer Nadel in einem Heuhaufen zu suchen. Wenn man dem Detektiv nur 10 Nadeln und 10.000 Heu-Stücke zeigt, lernt er nicht, die Nadel zu finden.

Die Forscher haben drei verschiedene Tricks angewendet, um das zu beheben:

  • Trick A: Die Fotokopier-Maschine (SMOTE & Gewichtung)
    Stell dir vor, du hast nur ein paar Fotos von Dieben. Du kopierst diese Fotos, drehst sie ein bisschen und fügst sie hinzu, damit der Detektiv mehr Beispiele sieht.

    • Ergebnis: Das funktionierte gut bei klaren Fällen (offener Hass), aber bei den hinterhältigen, versteckten Kommentaren verwirrte es die KI nur. Die "Fotos" waren zu künstlich.
  • Trick B: Die Grammatik-Brille (POS-Tagging)
    Hier geben sie dem Detektiv eine Brille, mit der er sieht, welche Wörter welche Rolle spielen (Subjekt, Verb, Adjektiv).

    • Ergebnis: Das war ein sicherer, kleiner Gewinn. Es half den Modellen, die Struktur der Sätze besser zu verstehen, ohne sie zu verwirren. Es ist wie ein stabiler, kleiner Bonus.
  • Trick C: Der Verkleidungs-Meister (Daten-Augmentierung)
    Das ist der spannendste Trick. Die Forscher nahmen die wenigen bösen Kommentare und veränderten sie leicht: Sie tauschten Synonyme aus, fügten Tippfehler hinzu oder änderten die Satzstruktur, behielten aber die böse Bedeutung bei.

    • Ergebnis: Das war ein Massenerfolg für den alten Detektiv! Der Delta TF-IDF, der vorher nur 89% richtig lag, erreichte mit diesem Trick 98,2% Genauigkeit auf dem "Stormfront"-Datensatz (einer Seite für weiße Suprematisten). Er wurde durch das Training mit vielen Varianten zum Meister.
    • Aber: Bei den modernen KI-Modellen (wie dem Super-Genie) brachte dieser Trick manchmal sogar Nachteile, weil diese Modelle schon so schlau waren, dass die künstlichen Veränderungen sie verwirrten.

3. Die große Erkenntnis

Die Forscher haben drei wichtige Dinge gelernt:

  1. Harte Nüsse: Es ist viel schwieriger, "flüsternden" Hass (implizit) zu erkennen als "schreienden" Hass (explizit). Die KI ist bei den leisen, hinterhältigen Kommentaren oft noch unsicher.
  2. Kein "Ein Trick passt für alle": Was für den alten Detektiv funktioniert (viele Variationen durch Daten-Augmentierung), kann die moderne KI verwirren. Man muss das Werkzeug genau auf den Fall abstimmen.
  3. Der Gewinner: Der riesige KI-Modell-Genie (gpt-oss-20b) ist aktuell der unangefochtene König, wenn es um Genauigkeit geht. Aber der einfache, alte Detektiv kann mit den richtigen Tricks fast mithalten – was toll ist, weil er viel weniger Rechenleistung braucht.

Fazit für den Alltag

Diese Studie zeigt uns, dass wir nicht immer die teuerste, größte KI brauchen, um Hass im Internet zu bekämpfen. Manchmal reicht ein einfacher Algorithmus, wenn man ihn clever trainiert (wie mit dem Verkleidungs-Trick). Aber für die schwierigsten Fälle – wo Hass sich gut versteckt – brauchen wir die großen, schlauen Modelle, die den Kontext wirklich verstehen können.

Es ist wie bei einem Sicherheitsdienst: Für die Tür braucht man vielleicht nur einen einfachen Wachmann, aber für die Suche nach einem Tarnkappen-Meisterverbrecher braucht man einen Spezialisten mit allen möglichen Gadgets.