When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Each language version is independently generated for its own context, not a direct translation.

Titel: Wenn die „Schutzzauber" versagen – und wie man sie wieder wirksam macht

Stell dir vor, du hast ein sehr wertiges Fotoalbum, das du nicht gerne teilen möchtest. Du willst verhindern, dass eine künstliche Intelligenz (KI) deine Fotos „lernt", um sie später zu kopieren oder zu missbrauchen.

Bisher gab es eine clevere Methode dafür: Man fügt den Fotos unsichtbare, winzige Störungen hinzu – wie einen kaum sichtbaren Staubkorn auf einer Linse. Diese Störungen sind für das menschliche Auge unsichtbar, aber sie verwirren die KI so sehr, dass sie lernt, falsche Muster zu erkennen (z. B. „dieses Bild ist eine Katze, weil es diesen unsichtbaren Punkt hat" statt „weil es eine Katze ist"). Wenn die KI dann echte, saubere Fotos sieht, scheitert sie kläglich. Man nennt diese gestörten Bilder „Unlearnable Examples" (Unlernbare Beispiele).

Das Problem: Der „Vorkenntnis"-Effekt

Die Forscher in diesem Papier haben jedoch ein riesiges Loch in dieser Sicherheitsstrategie entdeckt. Bisher hat man diese Störungen nur auf KI-Modelle getestet, die bei Null anfangen (wie ein Schüler, der gerade erst die Schule beginnt).

Aber in der echten Welt nutzen fast alle KI-Modelle heute Vorkenntnisse. Sie wurden bereits auf riesigen Datenmengen (wie Millionen von Bildern aus dem Internet) trainiert, bevor sie deine Fotos sehen. Man nennt das „Pretraining".

Die Analogie:
Stell dir vor, du versuchst, einem Kind beizubringen, dass ein Hund eine Katze ist, indem du ihm eine Brille aufsetzt, die alles verzerren.

Ohne Vorkenntnisse: Das Kind weiß noch nicht, wie ein Hund aussieht. Es vertraut deiner Brille und lernt: „Hund = Katze". Die Täuschung funktioniert.
Mit Vorkenntnissen: Das Kind ist bereits ein erfahrener Tierkenner. Es hat schon tausende Hunde und Katzen gesehen. Wenn du ihm die Brille aufsetzt, schaut es durch die Verzerrung hindurch, ignoriert die Täuschung und sagt: „Nein, das ist eindeutig ein Hund!"

Die Forscher haben gezeigt: Die alten Schutzmethoden versagen komplett bei KI-Modellen mit Vorkenntnissen. Die KI nutzt ihr gespeichertes Wissen, um die unsichtbaren Störungen zu ignorieren und trotzdem die wahre Bedeutung der Bilder zu lernen. Der „Schutzzauber" wirkt nicht mehr.

Die Lösung: BAIT (Der Köder)

Um dieses Problem zu lösen, haben die Autoren eine neue Methode namens BAIT entwickelt. Der Name steht für „Binding Artificial perturbations to Incorrect Targets" (Künstliche Störungen an falsche Ziele binden).

Wie funktioniert BAIT? Eine Analogie:
Stell dir vor, du willst einen sehr klugen Detektiv (die KI mit Vorkenntnissen) täuschen.

Die alte Methode: Du legst ein falsches Etikett auf eine echte Katze („Das ist ein Hund") und hoffst, der Detektiv glaubt dir. Der Detektiv schaut aber genau hin, nutzt sein Wissen und sagt: „Nein, das ist eine Katze."
Die neue Methode (BAIT): Du baust eine Falle. Du zwingst den Detektiv, sich in einem Spiel zu bewegen, bei dem die Regeln komplett verdreht sind.
1. Der innere Teil: Du simulierst eine normale Lernsituation, damit der Detektiv sich sicher fühlt.
2. Der äußere Teil: Gleichzeitig zwingst du ihn, die Störung (den „Köder") mit einem völlig falschen Ziel zu verknüpfen. Du sagst nicht nur „Das ist ein Hund", sondern du zwingst die KI so stark, dass sie nur noch auf die Störung reagiert und das Bild einer Katze als „Auto" oder „Banane" erkennt.

BAIT nutzt eine Art „Lernen, wie man lernt"-Strategie. Es trainiert die Störungen so, dass sie stärker sind als das Wissen der KI. Die KI wird gezwungen, ihre Vorkenntnisse zu ignorieren und sich stattdessen auf die unsichtbaren Störungen zu verlassen.

Das Ergebnis:
Wenn man diese neuen, gestörten Bilder verwendet, um eine KI mit Vorkenntnissen zu trainieren, passiert Folgendes:

Die KI lernt die Bilder perfekt (sie bekommt eine hohe Punktzahl im Training).
Aber sobald sie echte, saubere Fotos sieht, ist sie komplett verwirrt und rät nur noch zufällig (wie ein Mensch, der eine Münze wirft).
Die KI hat ihre Fähigkeit verloren, echte Bedeutungen zu verstehen. Der Datenschutz ist wiederhergestellt.

Zusammenfassung für den Alltag:
Die Forscher haben entdeckt, dass alte digitale Schutzschilder gegen KI-Training bei modernen, erfahrenen KI-Modellen nicht mehr funktionieren, weil diese Modelle zu viel wissen. Mit ihrer neuen Methode BAIT haben sie einen stärkeren Schutz entwickelt, der die KI so verwirrt, dass sie ihre eigene Intelligenz vergisst und nur noch auf die manipulierten Signale reagiert. So bleiben deine Daten sicher, selbst wenn die KI bereits „alles" gesehen hat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wenn Priors nach hinten losgehen: Zur Anfälligkeit von „Unlearnable Examples" gegenüber Pretraining

Veröffentlicht bei: ICLR 2026

1. Problemstellung

Unlearnable Examples (UEs) sind eine Strategie zum Datenschutz, bei der nicht wahrnehmbare Störungen (Perturbationen) in Trainingsdaten eingefügt werden. Das Ziel ist es, Machine-Learning-Modelle dazu zu bringen, falsche Korrelationen („Shortcuts") zwischen diesen Störungen und den Labels zu lernen, anstatt die zugrunde liegende Semantik der Daten zu erfassen. Dadurch soll die Generalisierungsfähigkeit des Modells auf saubere Testdaten auf ein Zufallsniveau sinken.

Das Kernproblem: Bisherige UE-Methoden wurden primär für Modelle entwickelt, die von Grund auf neu trainiert werden (Train-from-Scratch). In der Praxis werden jedoch fast immer vortrainierte Modelle (Pretrained Backbones, z. B. auf ImageNet) als Basis für das Fine-Tuning verwendet.
Die Autoren stellen fest, dass UEs bei vortrainierten Modellen versagen. Diese Modelle besitzen starke semantische Vorwissen (Priors), das es ihnen ermöglicht, die durch UEs eingeführten „Shortcuts" zu ignorieren und stattdessen die echten semantischen Merkmale der Daten zu lernen. Dies führt dazu, dass der Schutzmechanismus der UEs unwirksam wird und die Testgenauigkeit hoch bleibt.

2. Methodik: BAIT (Binding Artificial perturbations to Incorrect Targets)

Um dieses Problem zu lösen, schlagen die Autoren BAIT vor, ein neuartiges bi-level Optimierungsframework. Das Ziel ist es, die durch Pretraining geförderte semantische Ausrichtung zu durchbrechen und das Modell stattdessen zwingend auf die eingefügten Störungen zu lenken.

Das Bi-Level-Optimierungs-Prinzip:

Das Framework besteht aus zwei ineinandergreifenden Ebenen:

Innere Ebene (Inner Level):
- Simuliert die Standard-Lernsituation.
- Das Modell wird darauf trainiert, die gestörten Eingaben ( $x + \delta$ ) mit ihren wahren Labels ( $y$ ) in Einklang zu bringen.
- Dies nutzt die semantischen Priors des vortrainierten Modells, um eine normale Daten-Label-Ausrichtung zu etablieren.
Äußere Ebene (Outer Level):
- Hier werden die Perturbationen ( $\delta$ ) optimiert, um die Ausrichtung der inneren Ebene aktiv zu sabotieren.
- Statt das gestörte Bild zum wahren Label zu führen, wird eine Fehlbeschriftungs-Perturbations-Bindung (Mislabel-Perturbation Binding) erzwungen.
- Das gestörte Bild wird explizit einem falschen Ziel-Label ( $y_j$ , wobei $j \neq i$ ) zugeordnet.
- Dies zwingt das Modell, die Perturbation als dominanten Signalgeber für die Klassifizierung zu nutzen, anstatt auf die semantischen Priors zurückzugreifen.

Optimierungsstrategie:

Meta-Learning: Da die direkte Minimierung des bi-level Ziels schwer lösbar ist, wird ein Meta-Learning-Ansatz (Unrolling) verwendet. Die innere Optimierung wird für $N$ Schritte simuliert, um den Effekt der Perturbationen auf die äußere Zielsetzung vorherzusagen.
Curriculum-Guided Target Selection: Um die Wirksamkeit zu steigern, werden die falschen Ziel-Labels dynamisch ausgewählt:
1. Hard Negative: Klassen mit der höchsten Logit-Score (leicht zu verwechseln).
2. Random: Zufällige Klassen.
3. Most Dissimilar: Klassen mit dem niedrigsten Logit-Score (semantisch am weitesten entfernt).
  Dies führt das Modell schrittweise von einfachen zu schwierigen Fehlzuordnungen.

3. Schlüsselbeiträge

Aufdeckung einer fundamentalen Schwachstelle: Die Autoren zeigen empirisch, dass UEs bei vortrainierten Modellen versagen, da diese Priors nutzen, um die eingefügten „Shortcuts" zu umgehen und echte Semantik zu lernen.
Entwicklung von BAIT: Ein neues Framework, das Perturbationen an falsche Ziele bindet, um die semantische Ausrichtung durch Priors zu unterbrechen und künstliche Perturbations-Label-Korrelationen wiederherzustellen.
Umfassende Evaluation: Die Methode wurde auf verschiedenen Datensätzen (CIFAR-10/100, SVHN, Flowers102, ImageNet-Subsets) und Architekturen (ResNet, VGG, DenseNet, ViT, Swin Transformer) getestet.

4. Ergebnisse

Die Experimente belegen die Überlegenheit von BAIT gegenüber dem State-of-the-Art (Methoden wie EMN, TUE, REM, LSP, GUE, 14A):

Wirksamkeit gegen Pretraining: Während bestehende Methoden bei vortrainierten Modellen oft Testgenauigkeiten von 50–80 % erreichen (also weit über dem Zufallsniveau), drückt BAIT die Genauigkeit auf Chance-Level (ca. 10–20 %).
- Beispiel CIFAR-10 (ResNet-18): BAIT erreicht 14,40 % Genauigkeit, während der beste Vergleichswert (GUE) bei 23,17 % liegt und andere Methoden (wie TUE) bei über 80 % bleiben.
Transferierbarkeit: BAIT funktioniert auch, wenn die Perturbationen mit einem anderen vortrainierten Modell generiert werden und auf ein anderes vortrainiertes Backbone angewendet werden (z. B. von ImageNet auf CIFAR-10).
Robustheit: Die Methode bleibt auch unter Verteidigungsmechanismen wie Daten-Augmentierung (Cutout, Mixup) und JPEG-Komprimierung effektiv.
Visualisierung: t-SNE-Analysen zeigen, dass BAIT im Gegensatz zu anderen Methoden auch bei vortrainierten Modellen eine Verstrickung der Features (Feature Entanglement) erzeugt, was auf den Verlust der semantischen Trennung hinweist.

5. Bedeutung und Fazit

Dieses Paper adressiert eine kritische Lücke im Bereich des Datenschutzes durch „Unlearnable Examples". Es zeigt, dass die Annahme, UEs würden universell funktionieren, falsch ist, sobald moderne vortrainierte Modelle eingesetzt werden.

Praktische Relevanz: Da in der Industrie fast ausschließlich vortrainierte Modelle genutzt werden, ist BAIT ein essenzieller Schritt, um den Datenschutz für reale Anwendungen wiederherzustellen.
Theoretischer Beitrag: Die Arbeit verdeutlicht, wie stark semantische Priors das Lernen von Modellen dominieren können und wie man diese gezielt durch gezielte Fehlausrichtung (Mislabeling) überlisten kann.
Zukunft: Die Autoren sehen zukünftige Herausforderungen in der Übertragbarkeit auf andere Aufgaben wie Segmentierung, da die derzeitige Methode primär für die Klassifizierung entwickelt wurde.

Zusammenfassend bietet BAIT eine robuste Lösung, um die Privatsphäre von Daten auch im Zeitalter des Transfer-Learnings und großer vortrainierter Modelle zu schützen. Der Code ist öffentlich verfügbar.

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Titel: Wenn Priors nach hinten losgehen: Zur Anfälligkeit von „Unlearnable Examples" gegenüber Pretraining

1. Problemstellung

2. Methodik: BAIT (Binding Artificial perturbations to Incorrect Targets)

Das Bi-Level-Optimierungs-Prinzip:

Optimierungsstrategie:

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis