Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a riconoscere un'immagine, come un gatto o un numero scritto a mano. Il robot ha un "cervello" fatto di milioni di piccoli interruttori (i pesi della rete neurale). Il suo obiettivo è trovare la combinazione perfetta di questi interruttori per fare il lavoro meglio possibile.

Per farlo, usa un metodo chiamato Discesa del Gradiente (GD). È come se il robot fosse un escursionista su una montagna nebbiosa che vuole scendere nella valle più bassa (l'errore minimo). L'escursionista guarda solo dove pende il terreno sotto i suoi piedi e fa un passo in quella direzione.

Ora, c'è un metodo più moderno e popolare chiamato SAM (Sharpness-Aware Minimization). Invece di guardare solo sotto i piedi, SAM fa un piccolo "salto" in tutte le direzioni possibili intorno alla sua posizione, controlla se il terreno è ripido o piatto, e poi decide dove andare. L'idea è che i "piani" (minimi piatti) sono migliori per la generalizzazione rispetto alle "creste" strette (minimi acuti).

Questo articolo di ricerca, pubblicato alla conferenza ICLR 2026, scopre qualcosa di sorprendente e controintuitivo su come SAM si comporta quando il "cervello" del robot ha più strati (è "profondo").

Ecco la spiegazione semplice, divisa per concetti chiave:

1. Il Problema: "Prima i piccoli, poi i grandi"

Immagina che il tuo robot debba imparare a riconoscere un numero "2" scritto su uno sfondo bianco.

I "Fattori Maggiori" (Major Features): Sono le linee nere del numero "2". Sono evidenti, forti e importanti.
I "Fattori Minori" (Minor Features): Sono i piccoli punti di rumore sullo sfondo o le imperfezioni del foglio. Sono deboli e quasi invisibili.

Se usi il metodo classico (GD), il robot guarda subito le linee nere del "2" e impara subito a riconoscerle. È logico, no?

Ma se usi SAM su una rete profonda (con più strati), succede una cosa strana: il robot inizia guardando lo sfondo (i fattori minori) e ignora il numero "2" per un po'! Solo dopo un po' di tempo, o se si parte con una "spinta" iniziale diversa, il robot smette di guardare il rumore e finalmente si concentra sul numero.

2. L'Analogia del "Filtro Acustico"

Immagina di essere in una stanza rumorosa con una radio che trasmette una musica debole (il segnale importante) e un fruscio costante (il rumore).

GD (Il metodo classico): Metti l'orecchio vicino alla radio e senti subito la musica. Ignori il fruscio.
SAM (Il metodo nuovo): SAM è come un ingegnere del suono che, prima di ascoltare la musica, prova a "spostare" leggermente le sue orecchie per vedere se il fruscio cambia.
- In una stanza semplice (rete di 1 strato), SAM funziona come GD: sente la musica.
- In una stanza complessa con molte pareti (rete di 2 o più strati), SAM fa un errore di calcolo iniziale: amplifica il fruscio. Per un po', il robot pensa che il rumore di fondo sia la cosa più importante da imparare. Solo dopo, quando il "volume" del fruscio diventa troppo alto o il tempo passa, il robot si rende conto che deve ascoltare la musica e passa ai fattori importanti.

Questo fenomeno è chiamato "Amplificazione Sequenziale delle Caratteristiche".

3. Perché succede? (La "Normalizzazione" che inganna)

Il segreto sta in come SAM calcola il suo "salto".
SAM normalizza il suo passo in base alla forza totale del segnale. All'inizio, quando il robot è confuso e i suoi interruttori sono piccoli, il "rumore" (i fattori minori) sembra relativamente più forte rispetto al segnale principale a causa di come viene calcolato il passo.
È come se avessi una bilancia difettosa: quando pesi oggetti leggeri, la bilancia esagera il peso di quelli più piccoli, facendoti credere che siano i più pesanti. Solo quando metti oggetti pesanti sulla bilancia, questa si "stabilizza" e ti dice la verità.

4. Cosa significa per il mondo reale?

Gli autori hanno fatto esperimenti reali su immagini (come i numeri scritti a mano su MNIST o le case su SVHN).
Hanno scoperto che:

Se addestri un modello con GD, il modello guarda subito le parti importanti dell'immagine (le linee del numero).
Se addestri con SAM e usi una "spinta iniziale" (inizializzazione) media, il modello guarda prima le parti di sfondo o i dettagli minori.
Questo è importante perché ci insegna che non basta guardare dove finisce il robot alla fine. Dobbiamo guardare come ci arriva. A volte, il percorso che fa SAM (guardando prima i dettagli piccoli) potrebbe essere proprio ciò che lo rende più bravo a generalizzare (cioè a riconoscere nuovi numeri che non ha mai visto prima).

In sintesi

Il paper ci dice che SAM non è sempre "intelligente" come pensiamo. In reti profonde, ha un "pregiudizio nascosto" (implicit bias) che lo porta a dare priorità ai dettagli piccoli e insignificanti all'inizio dell'addestramento, per poi passare ai dettagli importanti.

È come se un pittore, invece di dipingere subito il viso di un ritratto (il dettaglio principale), iniziasse a dipingere le ombre sullo sfondo (i dettagli minori) per poi, dopo un po', concentrarsi sul viso. Questo comportamento dipende da quanto "forte" è la sua mano all'inizio (l'inizializzazione).

La lezione finale: Quando usiamo algoritmi avanzati come SAM, dobbiamo capire che il loro comportamento cambia drasticamente con la profondità della rete e con come li "accendiamo". Non è solo una questione di arrivare alla soluzione, ma di come la si trova.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il lavoro indaga il bias implicito dell'algoritmo Sharpness-Aware Minimization (SAM) quando applicato all'addestramento di reti neurali lineari diagonali su dati di classificazione binaria linearmente separabili con perdita logistica.

Sebbene sia noto che il Gradient Descent (GD) su reti lineari diagonali profonde ( $L \ge 2$ ) converga verso la direzione del massimo margine $\ell_1$ (favorendo soluzioni sparse), l'obiettivo è comprendere se e come SAM, progettato per trovare minimi piatti per migliorare la generalizzazione, alteri questo comportamento. Il paper si concentra su una scoperta controintuitiva: l'aggiunta di un singolo strato (passando da $L=1$ a $L=2$ ) introduce un comportamento dinamico in SAM che differisce drasticamente da GD, anche su dataset con un solo esempio.

2. Metodologia

Gli autori analizzano due varianti di SAM basate sulla norma utilizzata per la perturbazione locale:

$\ell_\infty$ -SAM: Perturbazione nella norma $\ell_\infty$ .
$\ell_2$ -SAM: Perturbazione nella norma $\ell_2$ (la variante più comune nella pratica).

Approccio Teorico:

Modelli: Reti lineari diagonali a $L$ strati ( $f(x) = \langle \beta, x \rangle$ , dove $\beta = \bigodot_{\ell=1}^L w^{(\ell)}$ ).
Dati: Analisi teorica condotta principalmente su un dataset minimale di un solo esempio $\{(\mu, +1)\}$ con $\mu \in \mathbb{R}^d$ e $0 < \mu_1 < \dots < \mu_d $, dove le coordinate rappresentano l'importanza delle feature (coordinate "minori" hanno$ \mu_j $piccoli, "maggiori" hanno$ \mu_j$ grandi).
Flussi Continui: Per semplificare l'analisi, gli autori studiano le controparti a tempo continuo (flussi) di GD e SAM, definendo un "flusso SAM ridimensionato" che rimuove il termine derivato dalla perdita per focalizzarsi sulla traiettoria spaziale.
Analisi Dinamica: Vengono analizzate le traiettorie dei coefficienti lineari $\beta(t)$ sia nel limite asintotico ( $t \to \infty$ ) che nel regime pre-asintotico (tempo finito), in funzione della scala di inizializzazione $\alpha$ .

3. Contributi Chiave e Risultati

A. Reti Profondità 1 ( $L=1$ )

Per i modelli lineari semplici ( $L=1$ ), sia $\ell_\infty$ -SAM che $\ell_2$ -SAM mostrano lo stesso bias implicito del GD: convergono nella direzione del massimo margine $\ell_2$ . In questo caso, SAM non altera il comportamento di GD.

B. Reti Profondità $\ge 2$ e $\ell_\infty$ -SAM

Per reti più profonde ( $L \ge 2$ ), il comportamento di $\ell_\infty$ -SAM diventa altamente sensibile all'inizializzazione:

La direzione limite dipende criticamente dal rapporto tra la scala di inizializzazione $\alpha_j$ e il raggio di perturbazione $\rho$ .
A differenza di GD (che converge sempre verso la feature dominante), $\ell_\infty$ -SAM può convergere verso vettori di base standard che corrispondono a feature minori o addirittura convergere a zero, a seconda delle condizioni iniziali. Questo dimostra un bias verso feature meno informative in base all'inizializzazione.

C. Reti Profondità 2 e $\ell_2$ -SAM: "Sequential Feature Amplification"

Il contributo più significativo riguarda $\ell_2$ -SAM su reti a 2 strati. Gli autori identificano un fenomeno chiamato Amplificazione Sequenziale delle Feature (Sequential Feature Amplification):

Comportamento Asintotico: Teoricamente, se la perdita tende a zero, la direzione limite è il massimo margine $\ell_1$ (come in GD).
Comportamento a Tempo Finito (Novità): Prima di raggiungere il limite asintotico, la dinamica di $\ell_2$ -SAM mostra una fase transitoria in cui il predittore si affida inizialmente alle feature minori (coordinate con $\mu_j$ piccoli) e solo successivamente si sposta verso le feature maggiori man mano che il tempo di addestramento aumenta o la scala di inizializzazione cresce.
Meccanismo: Questo fenomeno è causato dal fattore di normalizzazione del gradiente nella perturbazione $\ell_2$ . Nelle fasi iniziali (o con inizializzazione piccola), questo fattore sopprime le feature maggiori e amplifica relativamente quelle minori.
Regimi di Inizializzazione:
- Regime 1 (Piccolo $\alpha$ ): Il predittore collassa verso zero.
- Regime 2 (Intermedio $\alpha$ ): Si osserva l'amplificazione sequenziale (prima feature minori, poi maggiori).
- Regime 3 (Grande $\alpha$ ): Il predittore si allinea immediatamente con la feature maggiore.

D. Limiti dell'Analisi Asintotica

Il paper sottolinea che l'analisi del solo limite $t \to \infty$ è insufficiente per comprendere il bias implicito di SAM. La dinamica a tempo finito rivela che SAM può passare attraverso stati dove le feature "sbagliate" (minori) sono dominate, il che ha implicazioni per la generalizzazione e la stabilità durante l'addestramento reale.

4. Verifica Sperimentale

I risultati teorici sono corroborati da esperimenti su:

Dati Sintetici: Conferma dell'amplificazione sequenziale su reti lineari diagonali e reti convoluzionali (CNN) a 2 strati su dati banded.
Dati Reali (MNIST, SVHN, CIFAR-10): Utilizzando Grad-CAM, gli autori visualizzano che i modelli addestrati con SAM tendono a focalizzarsi su regioni di sfondo o pixel a bassa intensità (feature minori) rispetto ai modelli GD, che si concentrano sulle regioni dominanti (es. i numeri bianchi su sfondo nero). Questo comportamento è particolarmente evidente con scale di inizializzazione intermedie.

5. Significato e Implicazioni

Profondità come Fattore Critico: Dimostra che la profondità della rete ( $L \ge 2$ ) è un fattore determinante che modifica radicalmente il bias implicito di SAM rispetto a GD, introducendo dinamiche non presenti nei modelli lineari semplici.
Importanza della Dinamica a Tempo Finito: Sottolinea la necessità di analizzare le traiettorie di ottimizzazione durante tutto il processo di addestramento, non solo il punto di convergenza finale. Il comportamento "Minor First, Major Last" di SAM potrebbe spiegare perché l'algoritmo generalizza meglio, permettendo una esplorazione più ampia dello spazio delle feature prima di stabilizzarsi.
Sensibilità all'Inizializzazione: Fornisce una guida teorica su come la scala di inizializzazione e il raggio di perturbazione $\rho$ influenzino quale sottoinsieme di feature viene appreso per primo, offrendo nuovi strumenti per il tuning iperparametrico di SAM.

In sintesi, il paper svela che SAM non è semplicemente un ottimizzatore che trova minimi piatti, ma un algoritmo con una dinamica interna complessa e dipendente dalla profondità, che favorisce temporaneamente le feature meno informative prima di convergere verso quelle dominanti, un comportamento assente nel Gradient Descent standard.

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

1. Il Problema: "Prima i piccoli, poi i grandi"

2. L'Analogia del "Filtro Acustico"

3. Perché succede? (La "Normalizzazione" che inganna)

4. Cosa significa per il mondo reale?

In sintesi

1. Il Problema

2. Metodologia

3. Contributi Chiave e Risultati

A. Reti Profondità 1 (L=1L=1L=1)

B. Reti Profondità ≥2\ge 2≥2 e ℓ∞\ell_\inftyℓ∞​-SAM

C. Reti Profondità 2 e ℓ2\ell_2ℓ2​-SAM: "Sequential Feature Amplification"

D. Limiti dell'Analisi Asintotica

4. Verifica Sperimentale

5. Significato e Implicazioni

Articoli simili

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks

A. Reti Profondità 1 ( $L=1$ )

B. Reti Profondità $\ge 2$ e $\ell_\infty$ -SAM

C. Reti Profondità 2 e $\ell_2$ -SAM: "Sequential Feature Amplification"