Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Robuste" Anfänger

Stellen Sie sich vor, Sie haben einen Meisterkoch, der jahrelang in einer riesigen, normalen Küche geübt hat. Er kann tausende Gerichte perfekt zubereiten (das ist das vortrainierte Modell). Jetzt wollen Sie ihn in eine neue, spezielle Küche schicken, um ein bestimmtes Gericht zu kochen (das ist das Fine-Tuning für eine neue Aufgabe).

Das Problem: Der Meisterkoch ist zwar ein Genie, aber er hat noch nie gelernt, wie man gegen Sabotage vorgeht. Wenn jemand ihm versehentlich Salz statt Zucker gibt oder den Herd manipuliert (das sind adversarielle Angriffe oder Störungen), fällt er ins Wanken.

In der Welt der KI gibt es viele dieser "Meisterköche", die super sind, aber nicht gegen Sabotage trainiert wurden. Die Forscher wollten herausfinden: Können wir diesen Köchen einfach beibringen, gegen Sabotage zu kämpfen, während sie das neue Gericht lernen?

Die Entdeckung: Der "Suboptimale Transfer" (Das Stolpern)

Die Forscher haben versucht, diesen Köchen beizubringen, gegen Sabotage zu kämpfen, während sie das neue Gericht lernten. Das Ergebnis war überraschend und frustrierend:

Es ging schrecklich schief.

Statt ein robuster Meisterkoch zu werden, vergaßen die Köche plötzlich, wie man überhaupt kocht. Ihre Leistung auf dem normalen Gericht (die "saubere Genauigkeit") brach ein. Es war, als würde man einem Anfänger, der gerade lernt, Fahrrad zu fahren, sofort eine schwere Rucksacklast auf den Rücken schnallen und ihn durch einen Sturm schicken. Er fällt nicht nur um, er vergisst sogar, wie man überhaupt balanciert.

Die Forscher nennen dies "Suboptimaler Transfer". Das Modell lernt die neue Aufgabe nicht richtig, weil der Versuch, es gleichzeitig gegen Angriffe zu schützen, es zu sehr verwirrt. Es ist, als würde man versuchen, jemandem das Klavierspielen beizubringen, während man ihm gleichzeitig die Finger verkrümmt, damit er nicht versehentlich falsche Töne spielt. Das Ergebnis ist ein starrer, unfähiger Spieler.

Die Lösung: Der "Epsilon-Scheduler" (Die sanfte Einführung)

Die Forscher haben eine geniale Idee gehabt, wie man das Problem löst: Man muss es langsam angehen.

Statt den Köchen sofort den vollen "Sabotage-Rucksack" aufzuzwingen, schlugen sie eine Methode namens Epsilon-Scheduling vor. Stellen Sie sich das wie einen Trainer vor, der einem Sportler ein Trainingsprogramm gibt:

Phase 1 (Die Warm-up-Phase): In den ersten Wochen trainiert der Sportler nur das normale Laufen. Kein Rucksack, kein Sturm. Er muss erst die Muskeln für die neue Strecke aufbauen (das Modell lernt die neue Aufgabe).
Phase 2 (Der sanfte Anstieg): Nach und nach, Woche für Woche, wird der Rucksack schwerer. Erst ein kleines Gewicht, dann etwas mehr. Der Sportler gewöhnt sich daran, während er schon gelernt hat, wie man läuft.
Phase 3 (Das Ziel): Am Ende trägt der Sportler den vollen Rucksack und ist trotzdem schnell und stabil.

In der KI heißt das: Man beginnt das Training mit keiner Störung (0% Rucksack). Man lässt das Modell erst die neue Aufgabe perfekt lernen. Erst wenn es das kann, beginnt man, langsam kleine Störungen hinzuzufügen, bis man am Ende die volle Stärke erreicht.

Das Ergebnis: Die Modelle lernen die neue Aufgabe perfekt und werden gleichzeitig robust gegen Angriffe. Sie stolpern nicht mehr.

Ein neues Maß für Erfolg: Die "Erwartete Robustheit"

Bisher haben Forscher oft nur geschaut: "Wie gut ist das Modell, wenn es gar nicht gestört wird?" und "Wie gut ist es, wenn es maximal gestört wird?". Das ist wie zu sagen: "Der Sportler ist super, wenn er ohne Rucksack läuft, und er ist okay, wenn er 50 kg trägt." Aber was ist mit 10 kg? 20 kg?

Die Forscher haben eine neue Messgröße eingeführt: Erwartete Robustheit.
Stellen Sie sich vor, Sie zeichnen eine Kurve, die zeigt, wie gut der Sportler bei jedem Gewicht zwischen 0 und 50 kg läuft. Die Fläche unter dieser Kurve ist der neue Score.

Ein Modell, das bei 0 kg super ist, aber bei 10 kg schon umfällt, hat eine kleine Fläche (schlechter Score).
Ein Modell, das bei 0 kg gut ist und bei 50 kg immer noch läuft, hat eine große Fläche (guter Score).

Mit dieser neuen Messung zeigten die Forscher, dass ihre "sanfte Einführung" (Epsilon-Scheduling) viel besser ist als die alte, harte Methode.

Fazit

Die Botschaft des Papiers ist einfach:
Wenn Sie ein KI-Modell nehmen, das nicht gegen Angriffe trainiert wurde, dürfen Sie es nicht sofort mit voller Härte gegen Angriffe trainieren. Es wird zusammenbrechen.
Stattdessen müssen Sie geduldig sein. Beginnen Sie mit dem normalen Lernen und steigern Sie die Schwierigkeit langsam. So wird das Modell nicht nur stark, sondern behält auch seine Intelligenz bei.

Es ist der Unterschied zwischen "Jemanden ins kalte Wasser zu werfen, damit er schwimmt lernen soll" (was oft zum Ertrinken führt) und "Schritt für Schritt ins Wasser zu gehen, bis man tief genug ist" (wo man sicher schwimmen lernt).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Feinabstimmen (Fine-Tuning) vortrainierter Modelle ist ein Standardverfahren im maschinellen Lernen. Ein wachsendes Forschungsgebiet ist das robuste Feinabstimmen (Robust Fine-Tuning, RFT), das darauf abzielt, ein Modell gleichzeitig an eine Downstream-Aufgabe anzupassen und robust gegen adversarielle Beispiele (gezielte Störungen) zu machen.

Das zentrale Problem, das in diesem Paper adressiert wird, ist die Lücke zwischen Forschung und Praxis:

Die meisten verfügbaren Open-Source-Modelle sind nicht robust vortrainiert.
Bisherige RFT-Methoden gehen oft davon aus, dass robuste Vortrainings-Modelle (Robust Backbones) verfügbar sind.
Wenn man versucht, ein nicht-robustes vortrainiertes Modell direkt mit einem robusten Ziel (Adversarial Training) zu feinabstimmen, führt dies oft zu einem Phänomen, das die Autoren „suboptimale Transferleistung" (Suboptimal Transfer) nennen.

Das Phänomen: Selbst bei kleinen Störungsstärken (Perturbation Strengths, $\epsilon$ ) bricht die saubere Genauigkeit (Clean Accuracy) von nicht-robusten Modellen beim robusten Feinabstimmen drastisch ein. In extremen Fällen (z. B. bei schwierigen Datensätzen oder hohen $\epsilon$ ) fällt die Leistung so stark ab, dass das Modell kaum noch besser ist als eine zufällige Vorhersage – ein sogenannter „Transfer Failure".

2. Methodik und Analyse

Ursachenanalyse: Verzögerte Aufgabenanpassung

Die Autoren untersuchten, warum dieses Phänomen auftritt. Ihre Analyse zeigt:

Beim standardmäßigen Feinabstimmen ( $\epsilon = 0$ ) passt sich das Modell sofort an die neue Aufgabe an.
Beim robusten Feinabstimmen mit festem $\epsilon > 0$ (RFT-fix) werden die für die Aufgabe relevanten Merkmale durch die adversariellen Störungen verzerrt.
Dies führt zu einer verzögerten Aufgabenanpassung (Task Adaptation Delay): Das Modell benötigt viele Epochen, um überhaupt zu lernen, die Aufgabe zu lösen, da es zunächst gegen die Störungen „kämpfen" muss.
Es wurde eine starke negative Korrelation gefunden: Je länger diese Verzögerung ist, desto schlechter ist das Endergebnis (suboptimaler Transfer).

Die Lösung: Epsilon-Scheduling

Um dieses Problem zu lösen, schlagen die Autoren Epsilon-Scheduling vor. Dies ist ein Heuristik-Ansatz, bei dem die Stärke der adversariellen Störung ( $\epsilon$ ) während des Trainings dynamisch angepasst wird, anstatt sie konstant zu halten.

Das Schema ist ein zwei-Kipp-Punkt linearer Scheduler:

Anpassungsphase ( $t < T_1$ ): Das Training beginnt mit $\epsilon = 0$ (normales Feinabstimmen). Dies ermöglicht dem Modell, sich schnell an die Downstream-Aufgabe anzupassen und eine hohe saubere Genauigkeit zu erreichen.
Übergangsphase ( $T_1 \le t < T_2$ ): Die Störungsstärke wird linear von 0 auf das Ziel- $\epsilon_g$ erhöht.
Robustheitsphase ( $t \ge T_2$ ): Das Training läuft mit dem vollen Ziel- $\epsilon_g$ , um die finale Robustheit zu maximieren.

Dieser Ansatz fungiert als Curriculum-Learning-Strategie: Das Modell lernt zuerst die Aufgabe unter einfachen Bedingungen und wird dann schrittweise härteren adversariellen Angriffen ausgesetzt.

Neue Metrik: Erwartete Robustheit (Expected Robustness)

Da die traditionelle Bewertung nur die Genauigkeit bei sauberem Input ( $\epsilon=0$ ) und bei einem festen Ziel- $\epsilon_g$ betrachtet, schlagen die Autoren eine neue Metrik vor: Expected Robustness.

Diese Metrik berechnet den Erwartungswert der Genauigkeit über den gesamten Bereich von $\epsilon = 0$ bis $\epsilon = \epsilon_g$ (unter der Annahme einer gleichmäßigen Verteilung der Störungen).
Sie quantifiziert den Trade-off zwischen sauberer Genauigkeit und Robustheit umfassender und berücksichtigt das Verhalten bei intermediären Störungsstärken.

3. Wichtige Beiträge

Identifikation suboptimaler Transfers: Der Nachweis, dass robustes Feinabstimmen von nicht-robusten Backbones selbst bei kleinen $\epsilon$ zu katastrophalem Leistungsabfall führen kann.
Erkennung der Verzögerung: Die Entdeckung, dass robuste Ziele die Aufgabenanpassung verzögern und dass diese Verzögerung direkt mit dem Misserfolg des Transfers korreliert.
Epsilon-Scheduling: Die Einführung eines einfachen, aber effektiven Schedulers, der die Verzögerung eliminiert und sowohl saubere Genauigkeit als auch Robustheit verbessert.
Expected Robustness: Die Einführung einer neuen Evaluierungsmetrik, die den gesamten Trade-off-Bereich abbildet und bei der Modellauswahl hilft.
Umfassende Experimente: Validierung über sechs verschiedene vortrainierte Modelle (ViT, Swin, ResNet, ConvNeXt, CLIP-Varianten) und fünf Datensätze (CUB, Dogs, Caltech, Cars, Aircraft) mit unterschiedlichen Störungsstärken ( $\epsilon = 4/255$ und $8/255$ ).

4. Ergebnisse

Die Experimente zeigen konsistente Verbesserungen durch Epsilon-Scheduling im Vergleich zum Standard-Ansatz (RFT-fix):

Vermeidung von Transfer-Fehlern: Bei moderaten Störungen ( $\epsilon = 4/255$ ) verhindert der Scheduler den starken Abfall der sauberen Genauigkeit. Modelle erreichen saubere Genauigkeiten, die mit dem standardmäßigen Feinabstimmen vergleichbar sind, während sie gleichzeitig robuste Eigenschaften entwickeln.
Robustheit bei hohen Störungen: Bei hohen Störungen ( $\epsilon = 8/255$ ) scheitert RFT-fix in fast allen Fällen (Clean Accuracy oft < 5%). Epsilon-Scheduling erhält jedoch eine hohe Clean Accuracy und erreicht gleichzeitig signifikante Robustheit.
Verbesserung der Expected Robustness: Unter der neuen Metrik übertrifft der Scheduler den Fix-Ansatz in allen getesteten Konfigurationen (30 Kombinationen aus Modellen und Datensätzen).
Anwendung auf robuste Backbones: Selbst wenn robuste Vortrainings-Modelle verwendet werden, verbessert der Scheduler die saubere Genauigkeit, obwohl dies manchmal zu einem leichten Rückgang der maximalen Robustheit bei $\epsilon_g$ führt. Insgesamt verbessert sich jedoch die erwartete Robustheit.

5. Bedeutung und Fazit

Dieses Paper hat eine erhebliche praktische Bedeutung für das maschinelle Lernen in sicherheitskritischen Anwendungen:

Praktische Relevanz: Da die meisten verfügbaren Modelle nicht robust vortrainiert sind, bietet Epsilon-Scheduling einen Weg, diese Modelle dennoch effektiv für robuste Anwendungen nutzbar zu machen, ohne teures robustes Vortraining durchführen zu müssen.
Paradigmenwechsel: Es widerlegt die Annahme, dass robustes Vortraining zwingend notwendig sei, um erfolgreich robustes Feinabstimmen durchzuführen.
Neue Evaluierungsstandards: Die Einführung der „Expected Robustness" bietet eine realistischere Bewertungsmethode, da sie annimmt, dass Störungen in der Praxis variieren können, anstatt nur den Worst-Case bei einem festen $\epsilon$ zu betrachten.

Zusammenfassend demonstriert das Paper, dass durch eine geschickte Steuerung der Störungsstärke während des Trainings (Curriculum Learning) die inhärenten Konflikte zwischen Aufgabenanpassung und Robustheit in nicht-robusten Modellen überwunden werden können.