Evaluating Concept Filtering Defenses against Child Sexual Abuse Material Generation by Text-to-Image Models

Die Studie zeigt, dass das Filtern von Kinderbildern aus Trainingsdaten text-zu-bild-Modellen nur einen unzureichenden Schutz gegen die Erzeugung von CSAM bietet, da die geschützten Konzepte durch gezielte Prompts oder Fine-Tuning leicht wiederhergestellt werden können, während gleichzeitig die allgemeine Modellqualität beeinträchtigt wird.

Ursprüngliche Autoren: Ana-Maria Cretu, Klim Kireev, Amro Abdalla, Wisdom Obinna, Raphael Meier, Sarah Adel Bargal, Elissa M. Redmiles, Carmela Troncoso

Veröffentlicht 2026-04-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Der „Filter-Trick“: Warum digitale Schutzwälle gegen Missbrauch oft durchlässig sind

Stellen Sie sich vor, es gibt eine riesige, magische Malmaschine (das ist das KI-Bildmodell). Jeder kann ihr einen Zettel hinhalten, auf dem steht: „Male mir einen Hund im Weltraum“, und die Maschine malt es sofort.

Das Problem: Kriminelle versuchen, diese Maschine zu benutzen, um schreckliche, illegale Bilder von Kindern zu erstellen (das nennt man AIG-CSAM). Um das zu verhindern, haben die Entwickler eine Idee: Sie wollen die „Farbpalette“ der Maschine reinigen. Bevor die Maschine lernt zu malen, gehen sie durch den riesigen Vorrat an Bildern, mit denen sie trainiert wird, und werfen alle Bilder von Kindern raus. Die Idee dahinter: „Wenn die Maschine nie gelernt hat, wie ein Kind aussieht, kann sie auch keines malen.“

Die Forscher in diesem Papier haben nun untersucht, ob dieser „Filter-Trick“ wirklich funktioniert. Und ihr Ergebnis ist ein Weckruf.

1. Das Sieb ist zu grob (Die Detektions-Lücke)

Stellen Sie sich vor, Sie wollen alle roten Äpfel aus einem riesigen Berg Obst entfernen. Sie benutzen dafür einen Roboter. Aber der Roboter ist nicht perfekt: Er übersieht ständig ein paar rote Äpfel, oder er hält eine rote Tomate fälschlicherweise für einen Apfel.

Die Forscher haben festgestellt: Die automatischen Programme, die Kinderbilder in den riesigen Datenmengen finden sollen, sind nicht gut genug. Sie übersehen Millionen von Bildern. Das bedeutet: Die „schmutzigen“ Bilder rutschen einfach durch das Sieb und landen doch im Gehirn der KI.

2. Die KI ist ein cleverer Detektiv (Die Umgehungs-Strategie)

Selbst wenn der Filter fast perfekt wäre, gibt es ein Problem: Die KI ist extrem gut darin, Dinge zu kombinieren.

Stellen Sie sich vor, Sie verbieten einer Malmaschine das Wort „Kind“. Die Kriminellen sind aber schlau. Sie sagen der Maschine nicht: „Male ein Kind“, sondern sie nutzen Umwege. Sie beschreiben vielleicht „eine kleine Person mit einer sehr jugendlichen Stimme und kurzen Beinen“.

Die Forscher haben das mit einem Test-Konzept ausprobiert: Sie wollten Bilder von „Kindern mit Brille“ erzeugen. Selbst in den „gefilterten“ Modellen war es für die KI nur ein winziger Aufwand (nur ein paar zusätzliche Befehle), um doch wieder ein Kind mit Brille zu malen. Die Maschine hat also gelernt, das „Konzept Kind“ durch die Hintertür wieder reinzulassen.

3. Der „Nachhilfe-Effekt“ (Fine-Tuning)

Das ist der gefährlichste Teil. Wenn jemand die „offene“ Version der KI besitzt (also die Baupläne), kann er der Maschine eine kurze, intensive Nachhilfestunde geben.

Es ist so, als würden Sie einer Maschine verbieten, Äpfel zu malen. Aber dann nehmen Sie der Maschine 1.000 Fotos von Äpfeln und sagen: „Schau mal, so sehen sie wirklich aus!“ Innerhalb von Minuten hat die Maschine das Verbot vergessen. Die Forscher zeigen: Kriminelle können die Filter der KI mit sehr wenig Aufwand und sehr wenig Geld komplett aushebeln.

4. Der Kollateralschaden (Unbeabsichtigte Folgen)

Und hier wird es für die normale Nutzung schwierig: Wenn man versucht, ein Konzept (wie „Kind“) komplett aus der Welt zu schaffen, beschädigt man oft die gesamte „Wissenswelt“ der KI.

Wenn die Maschine nicht mehr weiß, was ein Kind ist, vergisst sie vielleicht auch, wie ein Spielplatz aussieht (weil auf Spielplätzen meist Kinder sind) oder wie eine Mutter aussieht. Die KI wird „dümmer“ und weniger vielseitig, weil die Filter zu grob sind und auch harmlose Dinge mit in den Müll werfen.

Das Fazente der Forscher:

Der Versuch, Missbrauch nur durch das „Löschen von Bildern“ aus dem Gedächtnis der KI zu verhindern, ist wie der Versuch, das Meer trocken zu legen, indem man versucht, jedes einzelne Wassertropfen mit einem Löffel aufzufangen.

Es ist nicht sicher genug gegen böswillige Nutzer, und es macht die KI für normale Menschen schlechter. Wir brauchen smartere, tiefgreifendere Lösungen, die nicht nur die „Wörter“ oder „Bilder“ löschen, sondern die gefährlichen Fähigkeiten der KI von Grund auf kontrollieren.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →