Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Die Arbeit stellt eine neue Heuristik namens Epsilon-Scheduling vor, die durch eine dynamische Anpassung der Störungsstärke während des Trainings das Problem des suboptimalen Transfers bei der robusten Feinabstimmung nicht-robuster vortrainierter Modelle löst und so die erwartete Robustheit signifikant verbessert.

Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné

Veröffentlicht 2026-03-16
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Robuste" Anfänger

Stellen Sie sich vor, Sie haben einen Meisterkoch, der jahrelang in einer riesigen, normalen Küche geübt hat. Er kann tausende Gerichte perfekt zubereiten (das ist das vortrainierte Modell). Jetzt wollen Sie ihn in eine neue, spezielle Küche schicken, um ein bestimmtes Gericht zu kochen (das ist das Fine-Tuning für eine neue Aufgabe).

Das Problem: Der Meisterkoch ist zwar ein Genie, aber er hat noch nie gelernt, wie man gegen Sabotage vorgeht. Wenn jemand ihm versehentlich Salz statt Zucker gibt oder den Herd manipuliert (das sind adversarielle Angriffe oder Störungen), fällt er ins Wanken.

In der Welt der KI gibt es viele dieser "Meisterköche", die super sind, aber nicht gegen Sabotage trainiert wurden. Die Forscher wollten herausfinden: Können wir diesen Köchen einfach beibringen, gegen Sabotage zu kämpfen, während sie das neue Gericht lernen?

Die Entdeckung: Der "Suboptimale Transfer" (Das Stolpern)

Die Forscher haben versucht, diesen Köchen beizubringen, gegen Sabotage zu kämpfen, während sie das neue Gericht lernten. Das Ergebnis war überraschend und frustrierend:

Es ging schrecklich schief.

Statt ein robuster Meisterkoch zu werden, vergaßen die Köche plötzlich, wie man überhaupt kocht. Ihre Leistung auf dem normalen Gericht (die "saubere Genauigkeit") brach ein. Es war, als würde man einem Anfänger, der gerade lernt, Fahrrad zu fahren, sofort eine schwere Rucksacklast auf den Rücken schnallen und ihn durch einen Sturm schicken. Er fällt nicht nur um, er vergisst sogar, wie man überhaupt balanciert.

Die Forscher nennen dies "Suboptimaler Transfer". Das Modell lernt die neue Aufgabe nicht richtig, weil der Versuch, es gleichzeitig gegen Angriffe zu schützen, es zu sehr verwirrt. Es ist, als würde man versuchen, jemandem das Klavierspielen beizubringen, während man ihm gleichzeitig die Finger verkrümmt, damit er nicht versehentlich falsche Töne spielt. Das Ergebnis ist ein starrer, unfähiger Spieler.

Die Lösung: Der "Epsilon-Scheduler" (Die sanfte Einführung)

Die Forscher haben eine geniale Idee gehabt, wie man das Problem löst: Man muss es langsam angehen.

Statt den Köchen sofort den vollen "Sabotage-Rucksack" aufzuzwingen, schlugen sie eine Methode namens Epsilon-Scheduling vor. Stellen Sie sich das wie einen Trainer vor, der einem Sportler ein Trainingsprogramm gibt:

  1. Phase 1 (Die Warm-up-Phase): In den ersten Wochen trainiert der Sportler nur das normale Laufen. Kein Rucksack, kein Sturm. Er muss erst die Muskeln für die neue Strecke aufbauen (das Modell lernt die neue Aufgabe).
  2. Phase 2 (Der sanfte Anstieg): Nach und nach, Woche für Woche, wird der Rucksack schwerer. Erst ein kleines Gewicht, dann etwas mehr. Der Sportler gewöhnt sich daran, während er schon gelernt hat, wie man läuft.
  3. Phase 3 (Das Ziel): Am Ende trägt der Sportler den vollen Rucksack und ist trotzdem schnell und stabil.

In der KI heißt das: Man beginnt das Training mit keiner Störung (0% Rucksack). Man lässt das Modell erst die neue Aufgabe perfekt lernen. Erst wenn es das kann, beginnt man, langsam kleine Störungen hinzuzufügen, bis man am Ende die volle Stärke erreicht.

Das Ergebnis: Die Modelle lernen die neue Aufgabe perfekt und werden gleichzeitig robust gegen Angriffe. Sie stolpern nicht mehr.

Ein neues Maß für Erfolg: Die "Erwartete Robustheit"

Bisher haben Forscher oft nur geschaut: "Wie gut ist das Modell, wenn es gar nicht gestört wird?" und "Wie gut ist es, wenn es maximal gestört wird?". Das ist wie zu sagen: "Der Sportler ist super, wenn er ohne Rucksack läuft, und er ist okay, wenn er 50 kg trägt." Aber was ist mit 10 kg? 20 kg?

Die Forscher haben eine neue Messgröße eingeführt: Erwartete Robustheit.
Stellen Sie sich vor, Sie zeichnen eine Kurve, die zeigt, wie gut der Sportler bei jedem Gewicht zwischen 0 und 50 kg läuft. Die Fläche unter dieser Kurve ist der neue Score.

  • Ein Modell, das bei 0 kg super ist, aber bei 10 kg schon umfällt, hat eine kleine Fläche (schlechter Score).
  • Ein Modell, das bei 0 kg gut ist und bei 50 kg immer noch läuft, hat eine große Fläche (guter Score).

Mit dieser neuen Messung zeigten die Forscher, dass ihre "sanfte Einführung" (Epsilon-Scheduling) viel besser ist als die alte, harte Methode.

Fazit

Die Botschaft des Papiers ist einfach:
Wenn Sie ein KI-Modell nehmen, das nicht gegen Angriffe trainiert wurde, dürfen Sie es nicht sofort mit voller Härte gegen Angriffe trainieren. Es wird zusammenbrechen.
Stattdessen müssen Sie geduldig sein. Beginnen Sie mit dem normalen Lernen und steigern Sie die Schwierigkeit langsam. So wird das Modell nicht nur stark, sondern behält auch seine Intelligenz bei.

Es ist der Unterschied zwischen "Jemanden ins kalte Wasser zu werfen, damit er schwimmt lernen soll" (was oft zum Ertrinken führt) und "Schritt für Schritt ins Wasser zu gehen, bis man tief genug ist" (wo man sicher schwimmen lernt).

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →