Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Each language version is independently generated for its own context, not a direct translation.

🎓 Il Problema: Il "Cervello" che si confonde

Immagina di avere un genio (un modello di intelligenza artificiale pre-addestrato) che ha studiato milioni di libri e immagini su internet. È bravissimo a riconoscere cose: sa distinguere un gatto da un cane, un'auto da un aereo. Tuttavia, questo genio ha un difetto: è troppo sicuro di sé e non sa difendersi da piccoli "truccetti" o inganni (chiamati esempi avversari). Se qualcuno gli mostra un'immagine di un cane con un piccolo adesivo invisibile all'occhio umano, il genio potrebbe pensare che sia un gatto.

Ora, vuoi insegnargli a riconoscere una nuova cosa specifica (ad esempio, solo i cani di una certa razza) e allo stesso tempo vuoi che sia impossibile da ingannare. Questo processo si chiama Fine-Tuning Robusto (RFT).

Il problema scoperto dagli autori:
Quando provi a insegnare a questo genio a essere "impossibile da ingannare" fin dal primo giorno, succede una cosa strana: il genio va in tilt.
Invece di imparare la nuova cosa, si confonde così tanto che dimentica anche quello che sapeva prima. Il risultato è che diventa pessimo sia nel riconoscere i cani, sia nel difendersi dagli inganni. È come se un calciatore professionista, cercando di imparare una nuova difesa complessa, dimenticasse come si corre e finisse per non segnare più gol.

Gli autori chiamano questo fenomeno "Trasferimento Subottimale": hai preso un modello potente, ma il metodo per renderlo sicuro lo ha reso inutile.

🛠️ La Soluzione: La "Scaletta" (Epsilon-Scheduling)

Gli autori si sono chiesti: "Perché succede questo?"
Hanno scoperto che il problema è che il genio cerca di imparare la nuova cosa e la difesa contemporaneamente, fin dall'inizio. È come se dovessi imparare a guidare un'auto, ma il istruttore ti mettesse subito le catene alle ruote e ti dicesse: "Guida, ma non devi mai toccare il volante con più di un grammo di forza!". È impossibile.

La loro soluzione geniale si chiama Epsilon-Scheduling (o "Pianificazione dell'Epsilon"). Immaginala come una scaletta graduale:

Fase 1 (Le prime settimane): Si insegna al modello a riconoscere la nuova cosa (es. i cani) senza preoccuparsi degli inganni. Si usa una "palestra normale". Il modello impara velocemente e si adatta bene.
Fase 2 (Il ponte): Si inizia a introdurre lentamente i "truccetti" (gli inganni). Non si buttano subito tutti i truccetti possibili, ma si inizia con quelli piccoli e si aumenta la difficoltà piano piano, come un allenatore che aumenta i pesi in palestra.
Fase 3 (La fine): Solo quando il modello è già bravo a riconoscere i cani, si introduce la difesa completa contro gli inganni più forti.

L'analogia della scuola di guida:

Metodo vecchio (RFT-fix): Ti metti al volante, ti metti le catene ai piedi e ti dicono "Guida in città con il traffico". Risultato? Ti schianti subito.
Metodo nuovo (Epsilon-Scheduling): Prima impari a guidare in un parcheggio vuoto (adattamento al compito). Poi guidi in una strada di campagna con un po' di vento (aumento graduale della difficoltà). Infine, guidi in città con il traffico intenso e ostacoli improvvisi (robustezza finale).

📊 I Risultati: Funziona davvero?

Gli autori hanno testato questa "scaletta" su molti modelli diversi (come ViT, Swin, ResNet) e su molti compiti diversi (riconoscere uccelli, auto, aerei, ecc.).

I risultati sono stati sorprendenti:

Nessun più "crash": Il modello non dimentica più cosa sta imparando.
Migliore equilibrio: Il modello diventa sia bravo a riconoscere le cose (alta precisione) sia bravo a non farsi ingannare (alta robustezza).
Una nuova misura del successo: Hanno introdotto un nuovo modo per valutare i modelli chiamato "Robustezza Attesa". Invece di guardare solo quanto è bravo il modello quando viene attaccato al massimo livello, guardano la sua media di performance su tutti i livelli di attacco (da zero fino al massimo). È come dire: "Non mi importa solo se sopravvive all'uragano, ma voglio sapere quanto è stabile anche con la brezza leggera".

💡 In Sintesi

Questo paper ci insegna che la pazienza paga.
Quando si cerca di rendere un'intelligenza artificiale sicura partendo da modelli che non lo sono, non bisogna buttare subito tutto il peso della sicurezza. Bisogna prima farla "adattare" al nuovo compito e solo dopo, gradualmente, insegnarle a difendersi.

Grazie a questo metodo (Epsilon-Scheduling), possiamo prendere i modelli potenti che abbiamo già (che sono economici e veloci da usare) e renderli sicuri per il mondo reale, senza doverli ricreare da zero o senza rovinarne le prestazioni. È un passo avanti fondamentale per rendere l'AI più affidabile nella vita di tutti i giorni.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Transfer Ottimale Subottimale

Il lavoro affronta una sfida critica nel Transfer Learning moderno: il Robust Fine-Tuning (RFT) su modelli pre-addestrati non robusti.

Contesto: La maggior parte dei modelli pre-addestrati disponibili nei repository open-source (es. ViT, Swin, ResNet) non sono robusti agli esempi avversari. Tuttavia, in applicazioni ad alto rischio, è necessario adattare questi modelli a compiti specifici mantenendo la robustezza.
La Sfida: Quando si applica un obiettivo di robustezza (addestramento avversario classico) direttamente su un backbone non robusto fin dall'inizio, si osserva un fenomeno denominato Suboptimal Transfer (trasferimento subottimale).
Il Fenomeno: Anche con perturbazioni piccole, l'addestramento robusto immediato impedisce al modello di adattarsi al nuovo compito. Il risultato è un'accuratezza "pulita" (clean accuracy) che crolla drasticamente, spesso scendendo sotto il livello di un addestramento standard o addirittura vicino al caso casuale, rendendo il trasferimento fallimentare.
Causa Individuata: Gli autori scoprono che l'obiettivo robusto, se applicato troppo presto, distorce le caratteristiche rilevanti per il compito, ritardando l'adattamento del modello al nuovo dataset. Questo ritardo nell'adattamento è fortemente correlato alla gravità del fallimento del trasferimento.

2. Metodologia Proposta

Per risolvere questo problema, gli autori introducono due innovazioni principali: una strategia di addestramento e una nuova metrica di valutazione.

A. Epsilon-Scheduling (Strategia di Addestramento)

Invece di utilizzare una forza di perturbazione fissa ( $\epsilon_g$ ) per tutta la durata dell'addestramento (strategia RFT-fix), gli autori propongono Epsilon-Scheduling, un piano di schedulazione lineare a due snodi (two-hinge linear schedule) per la forza della perturbazione $\epsilon(t)$ durante le epoche di addestramento $t$ :

Fase di Adattamento ( $t < T_1$ ): Il modello viene addestrato con $\epsilon = 0$ (addestramento standard). Questo permette al modello di adattarsi rapidamente al nuovo compito e raggiungere un'alta accuratezza pulita senza essere disturbato da esempi avversari.
Fase di Transizione ( $T_1 \le t < T_2$ ): La forza della perturbazione aumenta linearmente da $0 $a$ \epsilon_g$. Questo introduce gradualmente la robustezza, permettendo al modello di adattarsi alle perturbazioni senza perdere le caratteristiche apprese per il compito.
Fase di Robustezza ( $t \ge T_2$ ): La perturbazione rimane fissa al valore target $\epsilon_g$ per il resto dell'addestramento.

Questa strategia agisce come un curriculum learning, esponendo il modello prima a esempi facili (puliti) e poi gradualmente a quelli più difficili (adversarial).

B. Expected Robustness (Nuova Metrica di Valutazione)

Gli autori criticano le metriche tradizionali che valutano solo l'accuratezza pulita ( $\epsilon=0$ ) e quella robusta a un punto specifico ( $\epsilon=\epsilon_g$ ), ignorando il comportamento intermedio.
Propongono la Expected Robustness, definita come l'aspettativa dell'accuratezza del modello su tutto l'intervallo di perturbazioni da $0 $a$ \epsilon_g$, assumendo una distribuzione uniforme delle perturbazioni:
$\text{Expected Robustness} = \frac{1}{\epsilon_g} \int_{0}^{\epsilon_g} \text{Acc}_\epsilon(f) \, d\epsilon$
Questa metrica corrisponde all'Area Sotto la Curva (AUC) della curva di accuratezza rispetto alla forza della perturbazione, fornendo una visione più completa del compromesso (trade-off) tra accuratezza e robustezza.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su:

6 Backbones pre-addestrati: ViT, Swin, ConvNeXt, ResNet-50, CLIP-ViT, CLIP-ConvNeXt (tutti non robusti).
5 Dataset: CUB (uccelli), Stanford Dogs, Caltech256, Stanford Cars, FGVC-Aircraft.
Regimi di Perturbazione: Moderato ( $\epsilon_g = 4/255$ ) e Alto ( $\epsilon_g = 8/255$ ).

Risultati Chiave:

Prevenzione del Fallimento: In scenari difficili (es. dataset Aircraft con backbone ViT o ResNet), il metodo standard RFT-fix fallisce completamente (accuratezza < 5-10%). *Epsilon-Scheduling* ripristina l'accuratezza pulita a livelli competitivi (spesso > 70-80%) mantenendo una robustezza significativa.
Miglioramento dell'Expected Robustness: La strategia proposta supera costantemente il metodo fisso in termini di Expected Robustness, anche quando l'accuratezza avversaria al punto target è simile o leggermente inferiore. Questo dimostra che il modello è più stabile su tutto lo spettro delle perturbazioni.
Generalizzazione: Il metodo funziona bene sia su architetture basate su CNN (ResNet, ConvNeXt) che su Transformer (ViT, Swin), e anche su modelli multimodali (CLIP).
Backbone Robusti: Anche quando applicato a backbone già robusti, la schedulazione migliora l'accuratezza pulita, sebbene con un leggero calo della robustezza massima, confermando che la strategia favorisce l'adattamento al compito.

4. Contributi Principali

Identificazione del Suboptimal Transfer: Dimostrazione sistematica che il fine-tuning robusto su modelli non robusti porta a un trasferimento fallimentare a causa del ritardo nell'adattamento al compito.
Epsilon-Scheduling: Introduzione di una semplice euristica di schedulazione della perturbazione che risolve il problema, permettendo al modello di adattarsi prima di essere "attaccato".
Expected Robustness: Proposta di una nuova metrica di valutazione che quantifica il trade-off accuratezza-robustezza su un intervallo continuo, offrendo una visione più pratica rispetto alle valutazioni a punti fissi.
Analisi Teorica: Evidenziazione del fatto che i gradienti della loss pulita e della loss avversaria possono puntare in direzioni opposte all'inizio dell'addestramento su modelli non robusti, e come la schedulazione permetta di trovare un minimo locale migliore.

5. Significato e Impatto

Questo lavoro è significativo perché:

Colma un Gap Pratico: La maggior parte della ricerca sulla robustezza assume l'accesso a modelli pre-addestrati robusti, che sono costosi e rari. Questo studio dimostra come rendere robusti i modelli standard (non robusti) che sono effettivamente disponibili nella pratica.
Cambia la Strategia di Addestramento: Suggerisce che l'addestramento avversario non deve essere statico, ma dinamico, specialmente nel contesto del Transfer Learning.
Nuova Metrica: Introduce un modo più realistico per valutare la robustezza, considerando che gli attacchi potrebbero avere intensità variabile, non solo quella massima teorica.

In sintesi, il paper dimostra che è possibile ottenere modelli robusti partendo da backbones non robusti, a patto di adottare una strategia di addestramento che rispetti la necessità di un'adeguata fase di adattamento al compito prima di introdurre la robustezza avversaria.

Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

🎓 Il Problema: Il "Cervello" che si confonde

🛠️ La Soluzione: La "Scaletta" (Epsilon-Scheduling)

📊 I Risultati: Funziona davvero?

💡 In Sintesi

1. Il Problema: Il Transfer Ottimale Subottimale

2. Metodologia Proposta

A. Epsilon-Scheduling (Strategia di Addestramento)

B. Expected Robustness (Nuova Metrica di Valutazione)

3. Risultati Sperimentali

4. Contributi Principali

5. Significato e Impatto

Articoli simili

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks