HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Each language version is independently generated for its own context, not a direct translation.

Die Geschichte vom „Tarnkappen-Hass"

Stell dir das Internet wie einen riesigen, lauten Marktplatz vor. Auf diesem Platz gibt es zwei Arten von „schlechten Leuten":

Der offene Schläger: Dieser ruft laut „Ich hasse dich!" und wirft Steine. Das ist offener Hass. Das ist leicht zu erkennen, weil es so laut und grob ist.
Der Tarnkappen-Meister: Dieser kommt nicht mit einem Stein, sondern mit einem scheinbar harmlosen Gerücht. Er sagt: „Ach, die Leute von Gruppe X sind doch nur so krank, weil sie absichtlich Viren verbreiten." Er nutzt keine Schimpfwörter, sondern Lügen und Verschwörungstheorien, um Hass zu säen. Das nennt man im Paper „Faux Hate" (falscher oder getarnter Hass).

Das Problem: Computer und sogar Menschen merken oft nicht, dass hier Hass steckt, weil es so „schlau" verpackt ist. Es sieht aus wie eine Nachricht, ist aber eine Falle.

Was ist HateMirage?

Die Forscher haben ein neues Werkzeug gebaut, das sie HateMirage nennen.

Der Name: „Mirage" bedeutet auf Deutsch „Fata Morgana". Das ist eine optische Täuschung in der Wüste, bei der man Wasser sieht, wo keines ist. Genau so funktioniert dieser Hass: Er sieht aus wie eine normale Diskussion, ist aber eine Täuschung, die auf Lügen basiert.

Was macht das Tool?
Statt nur zu sagen: „Das ist böse!", zerlegt HateMirage jeden Kommentar in drei Teile, wie ein Detektiv, der einen Fall löst:

Das Ziel (Target): Wen wollen sie eigentlich angreifen? (Oft wird das Ziel nicht direkt genannt, sondern nur angedeutet).
Die Absicht (Intent): Was wollen sie damit erreichen? (Zum Beispiel: Angst schüren, eine Gruppe verächtlich machen oder die Gesellschaft spalten).
Die Folge (Implication): Was passiert, wenn viele Leute das glauben? (Zum Beispiel: Nachbarn trauen sich nicht mehr, sich zu grüßen, oder es kommt zu Gewalt).

Wie haben sie das gemacht?

Stell dir vor, die Forscher sind wie Archäologen:

Der Fundort: Sie haben sich echte, widerlegte Lügen aus Fakten-Check-Seiten geholt (z. B. „Die Impfung ist ein Plan der Regierung").
Die Suche: Dann sind sie auf YouTube gegangen und haben sich die Kommentare unter Videos zu diesen Themen angesehen.
Die Analyse: Sie haben 4.530 Kommentare gesammelt. Jeder dieser Kommentare wurde von einer KI (GPT-4) und menschlichen Prüfern untersucht. Die KI hat versucht, die drei oben genannten Teile (Ziel, Absicht, Folge) zu erklären.

Das Besondere: Bisherige Datensätze haben nur nach „Hass" gesucht. HateMirage schaut sich an, wie Lügen genutzt werden, um Hass zu erzeugen. Es ist wie der Unterschied zwischen einem Dieb, der einfach die Tür aufbricht (offener Hass), und einem Dieb, der sich als Hausmeister verkleidet, um ins Haus zu kommen (Faux Hate).

Was haben sie herausgefunden?

Die Forscher haben verschiedene KI-Modelle getestet, um zu sehen, ob diese Computer die „Tarnkappe" durchschauen können.

Die Ergebnisse: Es ist sehr schwer für Computer, diese Art von Hass zu verstehen. Große Modelle (die „dicken" KIs) sind gut, aber manchmal sind kleinere, speziell trainierte Modelle sogar besser darin, die Details zu erkennen.
Die Lektion: Es reicht nicht, nur ein riesiges Gehirn zu haben. Man braucht auch das richtige Wissen (Fakten) und die Fähigkeit, Zusammenhänge zu verstehen. Die KI muss wissen: „Aha, diese Lüge über das Virus wird genutzt, um gegen eine bestimmte Gruppe zu hetzen."

Warum ist das wichtig?

Stell dir vor, du bist ein Moderator auf einem sozialen Netzwerk.

Ohne HateMirage siehst du einen Kommentar und denkst: „Das ist ja nur eine Meinung."
Mit HateMirage siehst du: „Moment! Dieser Kommentar nutzt eine Lüge, um Angst zu machen und eine ganze Gruppe zu verunglimpfen. Das ist gefährlich."

Das Paper will also helfen, die Augen der KI zu öffnen, damit sie nicht nur auf Schimpfwörter achtet, sondern auch auf die Gefahr hinter den Lügen.

Zusammenfassung in einem Satz

HateMirage ist wie ein Aufklärer für das Internet, der uns hilft, die versteckten Lügen zu entlarven, die oft genutzt werden, um Menschen zu hassen, ohne dabei direkt beleidigend zu klingen.

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Die Geschichte vom „Tarnkappen-Hass"

Was ist HateMirage?

Wie haben sie das gemacht?

Was haben sie herausgefunden?

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik und Datensatz-Erstellung (HateMirage)

3. Schlüsselbeiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Die Geschichte vom „Tarnkappen-Hass"

Was ist HateMirage?

Wie haben sie das gemacht?

Was haben sie herausgefunden?

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik und Datensatz-Erstellung (HateMirage)

3. Schlüsselbeiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing