When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom "Onleerbare Voorbeelden" faalden bij slimme modellen

Stel je voor dat je een heel waardevol album met foto's hebt. Je wilt niet dat een ander (bijvoorbeeld een grote tech-bedrijf) deze foto's gebruikt om een slimme computer te trainen die jouw gezichten herkent.

Om dit te voorkomen, hebben onderzoekers een truc bedacht: Unlearnable Examples (UE's).

De Truc: Ze voegen een onzichtbaar laagje "ruis" of vervorming toe aan elke foto. Voor een mens ziet de foto er nog steeds perfect uit. Maar voor een computer die de foto's voor het eerst ziet, is het een complete chaos. De computer leert verkeerde patronen (bijvoorbeeld: "als er een beetje ruis in de hoek zit, is het een hond") en faalt op echte foto's. Het is alsof je een spiegel voor de computer houdt die alles verkeerd weerspiegelt.

Het Probleem:
De onderzoekers van dit paper (uit 2026) ontdekten een groot zwakke punt in deze truc.
Tot nu toe werkten deze trucen alleen goed als je de computer vanaf nul liet leren (zoals een baby die alles voor het eerst leert). Maar in de echte wereld gebruiken bedrijven vaak voorgeprogrammeerde, slimme modellen. Deze modellen hebben al duizenden foto's gezien en hebben een soort "inbouwkennis" (priors).

De Vergelijking: Stel je voor dat je een kind (een nieuw model) probeert te misleiden door te zeggen: "Kijk, dit is een koe, maar het heeft een blauwe neus." Het kind leert de blauwe neus en vergeet wat een koe echt is.
Maar als je dit doet met een ervaren boer (een voorgeprogrammeerd model), die al duizenden koeien heeft gezien, zegt hij: "Nee, dat is een koe met een rare blauwe neus. Ik weet nog steeds dat het een koe is." De ervaring van de boer maakt de truc van de blauwe neus nutteloos.

De onderzoekers zagen dat deze slimme modellen de "verkeerde patronen" van de ruis gewoon negeerden en toch de echte betekenis van de foto's leerden. De bescherming viel dus weg.

De Oplossing: BAIT (De "Valse Hengel")

Om dit op te lossen, hebben de onderzoekers een nieuwe methode bedacht, genaamd BAIT. De naam staat voor Binding Artificial perturbations to Incorrect Targets (Kunstmatige ruis koppelen aan verkeerde doelen).

In plaats van alleen maar ruis toe te voegen, gebruiken ze een slimme tweestaps-strategie:

De Innerlijke Stap (De Val): Ze laten het slimme model eerst denken dat het de foto's correct leert. Het model gebruikt zijn ervaring om te zeggen: "Ah, dit is een hond."
De Buitenste Stap (De Hengel): Nu komen ze met de truc. Ze zeggen: "Nee, wacht even. Die ruis die je ziet, betekent dat dit geen hond is, maar een auto." Ze koppelen de onzichtbare ruis niet aan het echte antwoord, maar aan een volledig verkeerd antwoord (bijvoorbeeld: een hond die eruitziet als een auto).

De Analogie:
Stel je voor dat je een ervaren detective (het slimme model) probeert te misleiden.

De oude methode: Je laat de detective een valse aanwijzing zien. Omdat hij slim is, negeert hij de valse aanwijzing en zoekt hij op de echte feiten. Hij lost de zaak op.
De nieuwe methode (BAIT): Je geeft de detective een valse aanwijzing, maar je koppelt die aanwijzing zo sterk aan een verkeerde verdachte (bijv. "De dader is de postbode, omdat hij een rode hoed draagt"). Je dwingt de detective om te denken: "Als ik die rode hoed zie, moet ik denken aan de postbode."
Omdat de detective zo gewend is om patronen te zoeken, begint hij de rode hoed (de ruis) te associëren met de postbode, in plaats van de echte dader. Hij raakt in de war en vergeet de echte feiten.

Wat hebben ze bewezen?

De onderzoekers hebben hun nieuwe methode getest op verschillende slimme modellen (zoals ResNet, ViT, enz.) en verschillende datasets (foto's van dieren, nummers, bloemen).

Resultaat: Waar de oude methoden faalden (de modellen leerden nog steeds de echte foto's), slaagde BAIT erin om de modellen volledig te misleiden. De modellen leerden alleen nog maar de "verkeerde" patronen en konden de echte foto's niet meer herkennen.
Veiligheid: Zelfs als je de foto's eerst een beetje verwisselt of comprimeert (zoals bij JPEG), werkt de truc nog steeds.

Conclusie

Dit onderzoek is belangrijk omdat het laat zien dat onze huidige manier om data te beschermen (met onzichtbare ruis) niet werkt tegen de super-slimme AI-modellen van vandaag. Maar met hun nieuwe methode BAIT, kunnen we deze slimme modellen toch dwingen om "dom" te worden en onze data te vergeten. Het is alsof we een nieuwe, ondoorgrondelijke taal hebben bedacht die alleen de beschermde data begrijpt, maar voor de slimme computer onleesbaar blijft.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wanneer Priors Op hun Hoofd Vallen: Over de Kwetsbaarheid van Onleerbare Voorbeelden voor Pretraining

Auteurs: Zhihao Li et al. (Western University, Concordia University, etc.)
Publicatie: ICLR 2026

1. Het Probleem

Onleerbare Voorbeelden (Unlearnable Examples - UEs) zijn een data-beschermingsstrategie waarbij onzichtbare perturbaties (ruis) worden toegevoegd aan trainingsdata. Het doel is om machine learning-modellen te misleiden zodat ze "spurious shortcuts" (schijnbare correlaties) leren in plaats van de onderliggende semantiek. Hierdoor presteren deze modellen goed op de vervuilde trainingsdata, maar falen ze volledig op schone testdata (de nauwkeurigheid daalt tot het niveau van een radom gok).

De Gaten in de Bestaande Literatuur:
Bestaande UE-methoden zijn voornamelijk ontworpen voor modellen die vanaf nul worden getraind (train-from-scratch). Echter, in de praktijk worden de meeste moderne toepassingen gebaseerd op voorgereputeerde modellen (pretrained backbones, zoals ResNet of ViT getraind op ImageNet).

De Vraag: Blijven UEs effectief wanneer ze worden toegepast op modellen die al rijke semantische kennis hebben opgedaan tijdens pretraining?
De Ontdekking: De auteurs ontdekken een fundamentele kwetsbaarheid. Voorgereputeerde modellen kunnen de door UEs geïntroduceerde "shortcuts" omzeilen dankzij hun bestaande pretraining priors. In plaats van de perturbaties te volgen, gebruiken deze modellen hun bestaande kennis om de echte semantiek van de data te herkennen, waardoor de bescherming van de UEs wordt geneutraliseerd.

2. Methodologie: BAIT (Binding Artificial perturbations to Incorrect Targets)

Om deze kwetsbaarheid op te lossen, stellen de auteurs BAIT voor, een nieuw bi-niveau optimalisatiekader (bi-level optimization framework).

Kernidee:
Het doel is om de standaard data-label uitlijning (die door de priors wordt gestimuleerd) te doorbreken en de kunstmatige correlatie tussen perturbaties en labels te herstellen, maar dan met een twist: perturbaties moeten worden gekoppeld aan verkeerde labels die semantisch verschillend zijn van de ground truth.

Het Bi-niveau Optimisatieproces:

Binnenste Niveau (Inner Level):
- Simuleert de standaard uitlijning.
- Het model wordt getraind om de perturbaties en de ground truth labels te associëren (zoals bij normaal leren).
- Dit zorgt ervoor dat het model de priors "gebruikt" om een basis voor semantisch leren te vormen.
Buitenste Niveau (Outer Level):
- Activeert de verstoring van deze uitlijning.
- Het optimaliseert de perturbaties zodat ze de perturbaties koppelen aan toegewezen verkeerde doellabels (mislabel-perturbation binding).
- Formule: Een sample $x_i$ met label $y_i$ wordt geperturbeerd met $\delta_j$ (van een andere klasse $j$ ) en gedwongen om te convergeren naar het verkeerde label $y_j$ .
- Dit mechanisme forceert het model om te vertrouwen op de perturbaties in plaats van de semantische priors, waardoor het leren van echte betekenis wordt geblokkeerd.

Optimalisatiestrategie:

Meta-Learning: Omdat de volledige bi-level doelstelling niet direct oplosbaar is, gebruiken ze een "unrolling" strategie (meta-learning). Ze simuleren $N$ stappen van binnenste optimalisatie om te voorspellen hoe de perturbaties het buitenste doel beïnvloeden.
Curriculum Learning (Staged Target Selection): Om de effectiviteit te vergroten, worden de verkeerde doellabels dynamisch geselecteerd in drie fasen:
1. Harde Negatieve Klassen: Klassen die het meest lijken op de echte klasse (makkelijkst te verwarren).
2. Willekeurige Klassen: Verhoogt de generalisatie.
3. Meest Dissimilaire Klassen: Semantisch totaal verschillende klassen (moeilijkst), wat de perturbaties dwingt om de priors volledig te overrulen.

3. Belangrijkste Bijdragen

Identificatie van een Fundamentele Kwetsbaarheid: Het paper bewijst empirisch dat bestaande UE-methoden falen bij voorgereputeerde modellen omdat de priors het model in staat stellen om de kunstmatige shortcuts te negeren en echte semantiek te leren.
BAIT Framework: Introductie van een bi-level optimalisatiekader dat perturbaties koppelt aan verkeerde labels, waardoor de priors worden "gebaait" (misleid) en het model gedwongen wordt om op de perturbaties te vertrouwen.
Uitgebreide Validatie: Demonstratie dat BAIT effectief is over verschillende datasets (CIFAR-10/100, SVHN, Flowers102, ImageNet), verschillende architecturen (CNNs zoals ResNet, VGG, en Vision Transformers zoals ViT, Swin) en zelfs bij verschillende pretraining priors.

4. Resultaten

De experimenten tonen aan dat BAIT aanzienlijk beter presteert dan bestaande methoden (zoals EMN, TUE, REM, LSP, GUE, 14A) in de context van voorgereputeerde modellen:

Pretrained Backbones: Waar bestaande methoden vaak testnauwkeurigheden van 60-80% behouden (dus effectief falen), drukt BAIT de nauwkeurigheid naar het niveau van een radom gok (bijv. ~14% op CIFAR-10, wat dicht bij de 10% kans is).
Transferability: Perturbaties gegenereerd met een ImageNet-pretrained surrogate werken ook effectief tegen modellen die zijn voorgeïntroduceerd op CIFAR-10 of SVHN.
Robuustheid: BAIT blijft effectief onder diverse verdedigingsmechanismen zoals data-augmentatie (Cutout, Mixup) en JPEG-compressie.
Train-from-Scratch: BAIT werkt ook superieur in traditionele settings zonder pretraining, wat de generaliteit van de methode onderstreept.
Visualisatie: t-SNE visualisaties tonen aan dat BAIT zorgt voor feature-entanglement (verwarring) zelfs bij voorgereputeerde modellen, terwijl andere methoden dat niet doen.

5. Betekenis en Impact

Privacy en Data Bescherming: Dit onderzoek is cruciaal voor de privacy van individuen in het tijdperk van Large Language Models en Foundation Models. Het toont aan dat eenvoudige perturbaties niet voldoende zijn om data te beschermen tegen bedrijven die gebruikmaken van krachtige, voorgereputeerde modellen.
Nieuwe Richting in UE-onderzoek: Het paper verplaatst de focus van "train-from-scratch" naar "pretrained backbones", wat de realiteit van moderne AI-systemen beter weerspiegelt.
Technische Vooruitgang: BAIT biedt een robuuste oplossing die de inherente sterkte van pretraining (het vermogen om echte patronen te leren) tegenwerkt door de leerprocessen actief te manipuleren via misleidende labels.

Conclusie:
Het paper concludeert dat "priors" (voorafgaande kennis) een zwakke plek zijn voor bestaande data-beschermingstechnieken. Met BAIT bieden de auteurs een oplossing die deze kwetsbaarheid neutraliseert, waardoor data daadwerkelijk "onleerbaar" blijft, zelfs voor de meest geavanceerde AI-modellen. De code is open-source beschikbaar gemaakt.

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

De Kern: Waarom "Onleerbare Voorbeelden" faalden bij slimme modellen

De Oplossing: BAIT (De "Valse Hengel")

Wat hebben ze bewezen?

Conclusie

Titel: Wanneer Priors Op hun Hoofd Vallen: Over de Kwetsbaarheid van Onleerbare Voorbeelden voor Pretraining

1. Het Probleem

2. Methodologie: BAIT (Binding Artificial perturbations to Incorrect Targets)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation