Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Dit paper introduceert Epsilon-Scheduling, een nieuwe methode die suboptimale overdracht tijdens het robuust fine-tunen van niet-robuuste voorgeïmplementeerde modellen voorkomt en de verwachte robuustheid aanzienlijk verbetert door de sterkte van perturbaties tijdens het trainingsproces dynamisch aan te passen.

Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom een "Niet-Veilige" Expert soms faalt bij een nieuwe taak

Stel je voor dat je een meesterkok (de voorgeöefende AI) hebt die al jarenlang fantastische Italiaanse gerechten maakt. Hij is een expert in pizza en pasta. Nu wil je hem echter leren om Japans sushi te maken (de nieuwe taak).

In de wereld van kunstmatige intelligentie noemen we dit fine-tuning: je neemt een slimme, voorgeöefende machine en traint hem even op een nieuwe specifieke taak.

Het probleem in dit artikel is dat deze meesterkok niet gewend is om te koken met "verkeerde" ingrediënten. In de AI-wereld zijn die "verkeerde ingrediënten" adversarial attacks: kleine, onzichtbare verstoringen in de data die de machine dwars kunnen zitten (zoals een beetje extra zout dat de kok niet merkt, maar dat de smaak totaal verpest).

Het Probleem: De "Suboptimale Overdracht"

De onderzoekers ontdekten iets verrassends. Als je deze meesterkok (die niet is getraind om tegen sabotage) direct probeert te leren sushi maken, terwijl je hem gelijktijdig ook traint om resistent te zijn tegen die kleine verstoringen, gaat het mis.

  • De analogie: Stel je voor dat je de kok dwingt om sushi te maken, maar je gooit de hele tijd een beetje zand in zijn rijst en vraagt hem om toch perfect te blijven.
  • Het resultaat: De kok raakt in paniek. Hij vergeet hoe hij sushi moet maken, en hij wordt ook niet echt goed in het negeren van het zand. Hij eindigt met een elendig gerecht dat noch sushi is, noch bestand tegen zand.
  • De term: De onderzoekers noemen dit suboptimale overdracht. De machine presteert slechter dan wanneer je hem gewoon had laten leren zonder die extra "veiligheidsregels". Soms is het resultaat zelfs zo slecht dat het lijkt alsof de machine helemaal niets meer kan.

De Oorzaak: De "Leer-Vertraging"

Waarom gebeurt dit?
Normaal gesproken past een AI zich snel aan een nieuwe taak aan (sushi maken). Maar als je hem direct dwingt om ook "veilig" te zijn tegen aanvallen, blokkeert die veiligheid de leercurve.

  • Vergelijking: Het is alsof je een student die net begint met leren zwemmen, direct in de diepe wateren gooit met een zware gewichtsgordel om te voorkomen dat hij zinkt. De student verdrinkt in plaats van dat hij leert zwemmen. De machine "vertrouwt" de nieuwe taak niet meer omdat hij te veel bezig is met het verdedigen tegen aanvallen.

De Oplossing: "Epsilon-Scheduling" (Het Trage Opbouwen)

De auteurs van het artikel hebben een slimme oplossing bedacht, genaamd Epsilon-Scheduling. In plaats van de kok direct met zand te bestoken, doen ze het stap voor stap:

  1. Fase 1 (De Start): De eerste paar weken laat je de kok gewoon sushi maken, zonder zand. Hij leert de basis van de nieuwe taak en bouwt vertrouwen op.
  2. Fase 2 (De Overgang): Langzaam, heel langzaam, beginnen ze kleine hoeveelheden zand toe te voegen. De kok moet nu leren om zijn sushi te maken terwijl er een beetje zand in zit. Omdat hij al een goede basis heeft, kan hij dit aan.
  3. Fase 3 (Het Doel): Uiteindelijk is de kok volledig getraind om sushi te maken, zelfs als er veel zand in de rijst zit.

Het resultaat: De machine leert de nieuwe taak (sushi) goed én wordt tegelijkertijd robuust (veilig) tegen aanvallen. Het werkt veel beter dan de "directe aanval".

Een Nieuwe Maatstaf: "Verwachte Robuustheid"

Tot nu toe keken onderzoekers alleen naar twee dingen:

  1. Hoe goed werkt het zonder zand? (Smaak)
  2. Hoe goed werkt het als er veel zand in zit? (Veiligheid)

De onderzoekers zeggen: "Dat is te simpel." Ze introduceren een nieuwe maatstaf: Verwachte Robuustheid.

  • De analogie: In plaats van alleen te kijken naar "perfecte sushi" of "sushi met een berg zand", kijken ze naar het gemiddelde van alle mogelijke situaties. Hoe goed is de kok als er soms een korreltje zand in zit, en soms twee, en soms drie?
  • Met hun nieuwe methode (Epsilon-Scheduling) scoort de machine veel hoger op dit gemiddelde. Het betekent dat de machine in de echte wereld, waar dingen niet altijd perfect of altijd volledig kapot zijn, gewoon beter werkt.

Conclusie

Dit artikel leert ons dat je niet kunt verwachten dat een slimme, maar niet-veilige AI direct veilig wordt als je hem op een nieuwe taak zet. Je moet hem eerst laten wennen aan de nieuwe taak, en pas daarna langzaam de "veiligheidsregels" introduceren.

Door dit stap-voor-stap plan (Epsilon-Scheduling) te gebruiken, kunnen we de enorme hoeveelheid bestaande, niet-veilige AI-modellen (zoals die op GitHub) toch veilig en effectief gebruiken voor kritische taken, zonder dat ze hun vaardigheden verliezen. Het is de sleutel om de kloof tussen "slimme AI" en "veilige AI" te overbruggen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →