Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom een "Niet-Veilige" Expert soms faalt bij een nieuwe taak

Stel je voor dat je een meesterkok (de voorgeöefende AI) hebt die al jarenlang fantastische Italiaanse gerechten maakt. Hij is een expert in pizza en pasta. Nu wil je hem echter leren om Japans sushi te maken (de nieuwe taak).

In de wereld van kunstmatige intelligentie noemen we dit fine-tuning: je neemt een slimme, voorgeöefende machine en traint hem even op een nieuwe specifieke taak.

Het probleem in dit artikel is dat deze meesterkok niet gewend is om te koken met "verkeerde" ingrediënten. In de AI-wereld zijn die "verkeerde ingrediënten" adversarial attacks: kleine, onzichtbare verstoringen in de data die de machine dwars kunnen zitten (zoals een beetje extra zout dat de kok niet merkt, maar dat de smaak totaal verpest).

Het Probleem: De "Suboptimale Overdracht"

De onderzoekers ontdekten iets verrassends. Als je deze meesterkok (die niet is getraind om tegen sabotage) direct probeert te leren sushi maken, terwijl je hem gelijktijdig ook traint om resistent te zijn tegen die kleine verstoringen, gaat het mis.

De analogie: Stel je voor dat je de kok dwingt om sushi te maken, maar je gooit de hele tijd een beetje zand in zijn rijst en vraagt hem om toch perfect te blijven.
Het resultaat: De kok raakt in paniek. Hij vergeet hoe hij sushi moet maken, en hij wordt ook niet echt goed in het negeren van het zand. Hij eindigt met een elendig gerecht dat noch sushi is, noch bestand tegen zand.
De term: De onderzoekers noemen dit suboptimale overdracht. De machine presteert slechter dan wanneer je hem gewoon had laten leren zonder die extra "veiligheidsregels". Soms is het resultaat zelfs zo slecht dat het lijkt alsof de machine helemaal niets meer kan.

De Oorzaak: De "Leer-Vertraging"

Waarom gebeurt dit?
Normaal gesproken past een AI zich snel aan een nieuwe taak aan (sushi maken). Maar als je hem direct dwingt om ook "veilig" te zijn tegen aanvallen, blokkeert die veiligheid de leercurve.

Vergelijking: Het is alsof je een student die net begint met leren zwemmen, direct in de diepe wateren gooit met een zware gewichtsgordel om te voorkomen dat hij zinkt. De student verdrinkt in plaats van dat hij leert zwemmen. De machine "vertrouwt" de nieuwe taak niet meer omdat hij te veel bezig is met het verdedigen tegen aanvallen.

De Oplossing: "Epsilon-Scheduling" (Het Trage Opbouwen)

De auteurs van het artikel hebben een slimme oplossing bedacht, genaamd Epsilon-Scheduling. In plaats van de kok direct met zand te bestoken, doen ze het stap voor stap:

Fase 1 (De Start): De eerste paar weken laat je de kok gewoon sushi maken, zonder zand. Hij leert de basis van de nieuwe taak en bouwt vertrouwen op.
Fase 2 (De Overgang): Langzaam, heel langzaam, beginnen ze kleine hoeveelheden zand toe te voegen. De kok moet nu leren om zijn sushi te maken terwijl er een beetje zand in zit. Omdat hij al een goede basis heeft, kan hij dit aan.
Fase 3 (Het Doel): Uiteindelijk is de kok volledig getraind om sushi te maken, zelfs als er veel zand in de rijst zit.

Het resultaat: De machine leert de nieuwe taak (sushi) goed én wordt tegelijkertijd robuust (veilig) tegen aanvallen. Het werkt veel beter dan de "directe aanval".

Een Nieuwe Maatstaf: "Verwachte Robuustheid"

Tot nu toe keken onderzoekers alleen naar twee dingen:

Hoe goed werkt het zonder zand? (Smaak)
Hoe goed werkt het als er veel zand in zit? (Veiligheid)

De onderzoekers zeggen: "Dat is te simpel." Ze introduceren een nieuwe maatstaf: Verwachte Robuustheid.

De analogie: In plaats van alleen te kijken naar "perfecte sushi" of "sushi met een berg zand", kijken ze naar het gemiddelde van alle mogelijke situaties. Hoe goed is de kok als er soms een korreltje zand in zit, en soms twee, en soms drie?
Met hun nieuwe methode (Epsilon-Scheduling) scoort de machine veel hoger op dit gemiddelde. Het betekent dat de machine in de echte wereld, waar dingen niet altijd perfect of altijd volledig kapot zijn, gewoon beter werkt.

Conclusie

Dit artikel leert ons dat je niet kunt verwachten dat een slimme, maar niet-veilige AI direct veilig wordt als je hem op een nieuwe taak zet. Je moet hem eerst laten wennen aan de nieuwe taak, en pas daarna langzaam de "veiligheidsregels" introduceren.

Door dit stap-voor-stap plan (Epsilon-Scheduling) te gebruiken, kunnen we de enorme hoeveelheid bestaande, niet-veilige AI-modellen (zoals die op GitHub) toch veilig en effectief gebruiken voor kritische taken, zonder dat ze hun vaardigheden verliezen. Het is de sleutel om de kloof tussen "slimme AI" en "veilige AI" te overbruggen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Suboptimale Transfer bij Robuust Fine-Tuning

Het fine-tunen van voorgeprogrammeerde modellen (backbones) is een standaardpraktijk in het machine learning, maar het tegelijkertijd bereiken van taakanpassing en robustheid tegen adversariale voorbeelden (Robust Fine-Tuning of RFT) blijft uitdagend. De meeste bestaande werken gaan uit van de beschikbaarheid van reeds robuust voorgetrainde modellen. In de praktijk zijn echter de meeste open-source modellen niet-robust.

De auteurs identificeren een kritiek probleem: wanneer men een niet-robust voorgetraind model probeert te fine-tunen met een robuust doelwit (adversariaal training) vanaf het begin, leidt dit vaak tot suboptimale transfer. Zelfs bij kleine verstoringen (perturbaties) kan de schone nauwkeurigheid (clean accuracy) drastisch dalen, soms tot op het niveau van willekeurige voorspellingen, waardoor de voordelen van transfer learning verloren gaan.

Kernobservatie:

Robuust fine-tunen vertraagt de taakanpassing. In standaard fine-tuning past het model zich direct aan de downstream-taak aan. Bij RFT met een vaste verstoring (RFT-fix) worden taakrelevante kenmerken vervormd, waardoor de aanpassing uitgesteld wordt.
Deze vertraging correleert sterk met de ernst van de suboptimale transfer: hoe langer de aanpassing uitblijft, hoe slechter de uiteindelijke prestaties.

Methodologie

Om dit probleem op te lossen, stellen de auteurs twee nieuwe concepten voor: Epsilon-Scheduling en Verwachte Robuustheid.

1. Epsilon-Scheduling (De Oplossing)

In plaats van direct te starten met de doelverstoringsterkte ( $\epsilon_g$ ), introduceert de auteurs een lineaire "twee-hinge" schema voor de verstoringsterkte tijdens het trainingproces. Het schema verloopt als volgt:

Fase 1 (Adaptatie): Voor de eerste $T_1$ epochen wordt er met $\epsilon = 0$ getraind (standaard fine-tuning). Dit stelt het model in staat om zich eerst effectief aan te passen aan de downstream-taak zonder verstoringen.
Fase 2 (Overgang): Tussen epoch $T_1$ en $T_2$ wordt de verstoringsterkte lineair opgevoerd van 0 naar de doelwaarde $\epsilon_g$ .
Fase 3 (Robuustheid): Vanaf epoch $T_2$ wordt de verstoringsterkte constant gehouden op $\epsilon_g$ .

Dit werkt als een curriculum learning-strategie: het model begint met makkelijke voorbeelden (schone data) en wordt geleidelijk blootgesteld aan steeds zwaardere adversariale voorbeelden. Dit voorkomt dat de kenmerken te vroeg worden vervormd.

2. Verwachte Robuustheid (Expected Robustness)

De auteurs kritiseren de traditionele evaluatie die alleen kijkt naar schone nauwkeurigheid en nauwkeurigheid bij één specifieke verstoring ( $\epsilon_g$ ). Ze introduceren Verwachte Robuustheid als een nieuwe metriek.

Dit is de verwachting van de nauwkeurigheid over het volledige bereik van verstoringen van 0 tot $\epsilon_g$ , onder een uniforme verdeling.
Formeel: $Acc_{[0, \epsilon_g]}(f) = \frac{1}{\epsilon_g} \int_{0}^{\epsilon_g} Acc_{\epsilon}(f) d\epsilon$ .
Deze metriek geeft een completer beeld van de afweging tussen schone nauwkeurigheid en robuustheid, en is gevoeliger voor modellen die goed presteren bij tussenvormen van verstoring.

Belangrijkste Resultaten

De auteurs hebben experimenten uitgevoerd met zes verschillende niet-robuste backbones (o.a. ViT, Swin, ResNet-50, ConvNeXt, CLIP-varianten) op vijf datasets (CUB, Dogs, Caltech, Cars, Aircraft) bij twee verstoringsterktes ( $\epsilon_g = 4/255$ en $8/255$ ).

Voorkomen van Suboptimale Transfer:
- Bij de standaard methode (RFT-fix) faalt fine-tuning vaak, vooral bij moeilijke taken en hoge verstoringen (bijv. bij $\epsilon_g = 8/255$ daalt de schone nauwkeurigheid vaak onder de 5%).
- Epsilon-Scheduling herstelt de schone nauwkeurigheid aanzienlijk. In de meeste configuraties bereikt het model een schone nauwkeurigheid die vergelijkbaar is met standaard fine-tuning, terwijl het toch robuustheid behaalt.
Verbetering van Verwachte Robuustheid:
- Zelfs wanneer de robuuste nauwkeurigheid bij de doelwaarde ( $\epsilon_g$ ) vergelijkbaar is of zelfs iets lager is dan bij de standaard methode, presteert Epsilon-Scheduling beter op de metriek "Verwachte Robuustheid". Dit komt omdat het model veel beter presteert bij lagere en gemiddelde verstoringen.
Optimalisatie-inzicht:
- Analyse van de loss-curves toont aan dat Epsilon-Scheduling het model naar een ander lokaal optimum leidt. Het minimaliseert eerst de schone loss (taakanpassing) en verlaagt daarna pas de adversariale loss, terwijl het de schone loss laag houdt. De standaard methode worstelt vaak om de adversariale loss te verlagen zonder de schone loss te laten exploderen.
Robuuste Backbones:
- Ook bij het fine-tunen van reeds robuuste backbones verbetert Epsilon-Scheduling de schone nauwkeurigheid, hoewel de robuustheid iets kan dalen. De netto-winst in "Verwachte Robuustheid" blijft echter positief.

Significantie en Bijdrage

Praktische Relevantie: De studie toont aan dat het niet nodig is om kostbare robuuste pre-training te hebben om robuuste downstream-modellen te bouwen. Het is mogelijk om effectief te fine-tunen op de overvloed aan niet-robuste open-source modellen, mits de juiste trainingstrategie wordt gebruikt.
Nieuwe Evaluatiestandaard: De introductie van "Verwachte Robuustheid" biedt een meer realistisch en compleet beeld van modelprestaties dan de traditionele "clean vs. worst-case" dichotomie.
Theoretisch Inzicht: Het paper identificeert en kwantificeert de "vertraging in taakanpassing" als de hoofdoorzaak van suboptimale transfer bij robuust fine-tuning, wat een nieuw perspectief biedt op de dynamiek van adversariaal training in transfer learning.
Generaliseerbaarheid: De methode werkt consistent over verschillende architecturen (Transformers en CNNs) en datasets, wat suggereert dat het een fundamenteel probleem oplost in plaats van een specifiek artefact.

Kortom, het paper biedt een eenvoudige maar krachtige heuristiek (Epsilon-Scheduling) die de kloof tussen onderzoek en implementatie dicht door het mogelijk te maken om robuuste modellen te trainen op de bestaande, niet-robuste basismodellen die in de industrie en gemeenschap wijdverspreid zijn.

Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

De Kern: Waarom een "Niet-Veilige" Expert soms faalt bij een nieuwe taak

Het Probleem: De "Suboptimale Overdracht"

De Oorzaak: De "Leer-Vertraging"

De Oplossing: "Epsilon-Scheduling" (Het Trage Opbouwen)

Een Nieuwe Maatstaf: "Verwachte Robuustheid"

Conclusie

Probleemstelling: Suboptimale Transfer bij Robuust Fine-Tuning

Methodologie

1. Epsilon-Scheduling (De Oplossing)

2. Verwachte Robuustheid (Expected Robustness)

Belangrijkste Resultaten

Significantie en Bijdrage

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks