What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Diese Studie stellt einen experimentellen Benchmark für Filterstrategien zur Schadensreduzierung in Vortrainingsdatensätzen vor und zeigt, dass diese zwar schädliche Inhalte effektiv entfernen, jedoch gleichzeitig die Unterrepräsentation vulnerabler Gruppen verstärken.

Marco Antonio Stranisci, Christian Hardmeier

Veröffentlicht 2025-02-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🛡️ Was wird eigentlich herausgefiltert? Eine Untersuchung zu KI und Vorurteilen

Stell dir vor, du möchtest einen riesigen, chaotischen Bibliothekskeller (das ist der "Trainingsdatensatz") aufräumen, um daraus einen super-intelligenten Bibliothekar (die KI) zu bauen. Dieser Bibliothekar soll alles über die Welt wissen, aber er darf keine bösen, rassistischen oder sexistischen Geschichten erzählen.

Um das zu erreichen, setzen die Entwickler Filter ein. Sie wollen den "Müll" (schädliche Inhalte) aus dem Keller entfernen, damit der Bibliothekar sauber und höflich wird.

Aber hier kommt das Problem: Was passiert mit den Menschen, die in den Geschichten vorkommen, wenn wir den Müll wegwerfen?

Diese Studie von Marco Antonio Stranisci und Christian Hardmeier untersucht genau das. Sie haben wie Detektive gearbeitet und herausgefunden, dass unsere guten Vorsätze (den Müll wegzuwerfen) oft unbeabsichtigt bestimmte Gruppen von Menschen aus dem Gedächtnis der KI löschen.

1. Der große Überblick: Wie versuchen wir, die KI zu säubern?

Die Forscher haben sich 55 technische Berichte von verschiedenen KI-Modellen angesehen. Sie haben herausgefunden, dass es im Grunde acht verschiedene Methoden gibt, um den Keller zu reinigen:

  • Die "Vertrauens-Polizei": Man nimmt nur Bücher von bekannten, seriösen Quellen (wie Wikipedia).
  • Der "Qualitäts-Filter": Man wirft alles weg, was schlecht geschrieben oder langweilig klingt.
  • Die "Wort-Liste": Man hat eine Liste mit bösen Wörtern (Schimpfwörter, Hassrede). Kommt ein Wort vor, wird der ganze Satz weggeschmissen.
  • Der "KI-Detektiv": Eine andere KI schaut sich den Text an und sagt: "Das hier ist giftig, weg damit!"
  • Die "Schwarze Liste": Bestimmte Webseiten werden komplett ignoriert.
  • Der "Mensch im Loop": Echte Menschen schauen sich die Texte an und entscheiden, was bleibt.

Das Problem: Viele dieser Methoden sind wie ein Trichter. Sie lassen den Müll durch, aber sie lassen auch viele wichtige Dinge durch, die gar nicht schädlich sind. Und schlimmer noch: Sie fangen oft Dinge auf, die gar nicht gemeint waren.

2. Das Experiment: Wer verliert am meisten?

Die Forscher haben ein eigenes Test-System gebaut. Sie haben einen Haufen Texte aus dem Internet genommen und sieben verschiedene Filtermethoden darauf angewendet. Dann haben sie gezählt: Wer taucht danach noch in den Texten auf?

Sie haben die Menschen in vier Gruppen eingeteilt, basierend auf Geschlecht und Herkunft:

  1. Westliche Männer
  2. Westliche Frauen
  3. Männer aus ehemaligen Kolonien (Post-Kolonial)
  4. Frauen aus ehemaligen Kolonien

Das schockierende Ergebnis:
Die Filter funktionieren nicht neutral. Sie sind wie ein schiefes Sieb.

  • Frauen sind die großen Verlierer: Egal welchen Filter man benutzt (ob Wort-Liste oder KI-Detektiv), Frauen werden viel häufiger aus den Texten entfernt als Männer.
  • Warum? Stell dir vor, du hast einen Filter, der Wörter wie "Sex" oder "Pornografie" entfernt. Das ist gut, um Pornografie zu stoppen. Aber in den Texten, in denen diese Wörter vorkommen, tauchen oft Frauen auf (z. B. als Schauspielerinnen oder in bestimmten Rollen). Wenn der Filter den Satz löscht, löscht er auch die Erwähnung der Frau.
  • Männer sind "sicherer": Männer tauchen in Texten über Politik, Wissenschaft oder Sport auf. Diese Texte enthalten seltener die "verbotenen" Wörter, die die Filter löschen. Also bleiben Männer in der KI-Datenbank viel öfter übrig.

3. Die Analogie des "Schnitzel-Prüfers"

Stell dir vor, du möchtest nur gesunde Schnitzel servieren. Du hast einen Filter, der alles wegwerfen soll, was "zu fett" aussieht.

  • Das Problem ist: Viele Küchenmädchen, die die Schnitzel zubereiten, tragen Schürzen, die etwas fettig aussehen.
  • Wenn du den Filter anwendest, werfst du nicht nur die fetten Schnitzel weg, sondern werfst auch die Bilder der Küchenmädchen weg, weil sie "zu fett" aussehen.
  • Am Ende hast du zwar keine fetten Schnitzel mehr, aber keine Bilder von Küchenmädchen mehr in deinem Kochbuch. Die Männer-Köche, die in sauberen Anzügen stehen, bleiben übrig.

Genau das passiert mit den KI-Daten: Um "schädliche" Inhalte zu entfernen, löschen wir unbeabsichtigt die Repräsentation von Frauen.

4. Das Fazit: Wir müssen vorsichtiger sein

Die Studie zeigt uns drei wichtige Dinge:

  1. Ein Filter ist nie perfekt: Wenn du einen bestimmten Typ von Hass (z. B. Rassismus) filterst, löscht du vielleicht unbeabsichtigt andere Dinge (z. B. die Erwähnung von Minderheiten).
  2. Qualität ist nicht gleich Sicherheit: Texte, die gut geschrieben und von "guten" Quellen stammen (wie Wikipedia), sind nicht automatisch frei von Vorurteilen. Sie können immer noch Frauen unterrepräsentieren.
  3. Wir verlieren die Vielfalt: Wenn wir die KI nur mit gefilterten Daten trainieren, lernt sie die Welt so, als gäbe es mehr Männer als Frauen und als wären Frauen nur in bestimmten (oft negativen) Kontexten erwähnenswert.

Die Botschaft: Wir müssen beim Aufräumen der KI-Datenbanken aufpassen, dass wir nicht versehentlich ganze Gruppen von Menschen aus dem Gedächtnis der Maschine löschen. Es braucht feinere Werkzeuge, die nicht nur "Müll" entfernen, sondern die Vielfalt der Welt bewahren.