Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a distinguere tra gatti e cani. Hai migliaia di foto, e il tuo obiettivo è trovare la "linea di confine" perfetta che separi i due gruppi.

In questo mondo, ci sono due "maestri" (ottimizzatori) che guidano il robot: GD (Gradient Descent) e Adam.

GD è come un escursionista che cammina passo dopo passo, seguendo la pendenza più ripida. È lento ma molto prevedibile: tende a trovare la soluzione più "equilibrata" e rotonda (chiamata massimo margine L2).
Adam, invece, è come un ciclista esperto che usa le marce. Si adatta alla strada: se la pendenza è ripida, accelera; se è piatta, rallenta. È velocissimo ed è lo standard nell'industria.

Tuttavia, c'è un mistero: come decide Adam quale strada prendere?

Il Problema: La Trappola del "Batch Completo"

Fino a poco tempo fa, gli scienziati pensavano che Adam avesse un "bias" (una preferenza nascosta) molto specifico: tendeva a scegliere soluzioni "angolose", come se volesse tagliare gli spigoli della soluzione (chiamato massimo margine L∞).

Ma c'era un problema: tutti questi studi erano fatti in un mondo ideale, dove il robot guardava tutte le foto contemporaneamente prima di fare un passo (chiamato full-batch). Nella realtà, però, i robot moderni guardano le foto una alla volta o in piccoli gruppi (chiamato mini-batch o incrementale).

La Scoperta: Adam cambia personalità

Gli autori di questo paper hanno scoperto qualcosa di sorprendente: quando Adam lavora guardando un solo esempio alla volta, cambia completamente carattere.

Ecco l'analogia per capire il risultato:
Immagina che Adam sia un chef.

Se ha davanti tutti gli ingredienti (full-batch) e deve preparare un piatto, sceglie sempre un sapore molto forte e specifico (il gusto "angoloso" L∞).
Ma se gli dai un solo ingrediente alla volta (incremental Adam), il suo gusto cambia. Invece di cercare l'angolo più netto, inizia a cercare la soluzione più "rotonda" e bilanciata (il gusto L2), proprio come farebbe l'escursionista GD!

In pratica, il modo in cui Adam "adatta" i suoi passi (la sua intelligenza artificiale) funziona benissimo quando vede tutto il quadro, ma quando vede solo un pezzetto alla volta, quella sua intelligenza si "confonde" e finisce per comportarsi in modo diverso, a volte addirittura meglio di quanto ci si aspettasse.

L'Eccezione: Il "Signum" (Il Robot Testardo)

Il paper introduce anche un altro personaggio: Signum.
Se Adam è un ciclista che cambia marcia in base alla strada, Signum è un robot che ignora completamente la strada e guarda solo la direzione (su o giù).
Gli scienziati hanno dimostrato che Signum è "testardo": non importa se guarda una foto alla volta o tutte insieme, rimane sempre fedele al suo gusto "angoloso" (L∞). Non cambia mai idea.

Perché è importante?

Questa ricerca ci dice due cose fondamentali:

Non possiamo generalizzare: Quello che funziona quando addestriamo un modello guardando tutti i dati insieme, non funziona quando lo facciamo guardando i dati uno alla volta. Le regole del gioco cambiano.
Il dato conta: La "personalità" finale di Adam non dipende solo dall'algoritmo, ma anche dai dati che gli diamo. Su alcuni dati, diventa un cercatore di soluzioni rotonde; su altri, torna a cercare quelle angolose.

In sintesi

Il paper ci insegna che Adam non è un algoritmo con una sola anima.

Se lo fai lavorare "a vista d'occhio" (tutti i dati), è un cercatore di angoli.
Se lo fai lavorare "a tentoni" (un dato alla volta), diventa un cercatore di equilibrio.

È come se un artista, quando ha la tela intera davanti, dipingesse con pennellate nette e decise, ma se gli dessi un solo centimetro di tela alla volta, iniziasse a mescolare i colori in modo più morbido e sfumato. Capire questa differenza è cruciale per costruire intelligenze artificiali più intelligenti e prevedibili.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "Implicit Bias of Per-Sample Adam on Separable Data: Departure from the Full-Batch Regime", presentato come articolo di conferenza all'ICLR 2026.

1. Problema e Contesto

L'ottimizzatore Adam è lo standard de facto nell'addestramento delle reti neurali profonde, ma la sua comprensione teorica, in particolare riguardo al suo bias implicito (la tendenza a convergere verso soluzioni specifiche senza regolarizzazione esplicita), rimane limitata.

Stato dell'arte: Studi precedenti hanno dimostrato che, nel regime full-batch (uso di tutti i dati per ogni passo), Adam converge direzionalmente verso la soluzione a margine massimo $\ell_\infty$ . Questo comportamento è simile a quello della Sign Gradient Descent (SignGD).
La lacuna: L'addestramento moderno utilizza quasi esclusivamente mini-batch (o stocastico). È noto che per la Discesa del Gradiente (GD) standard, l'uso di mini-batch preserva il bias verso la soluzione a margine massimo $\ell_2$ . Tuttavia, non era chiaro se Adam mantenesse il suo bias $\ell_\infty$ anche in regime stocastico.
Domanda di ricerca: Il bias caratteristico $\ell_\infty$ di Adam persiste quando si utilizza un batch size di 1 (o mini-batch) su dati linearmente separabili?

2. Metodologia e Approccio Teorico

Gli autori analizzano il comportamento asintotico di Incremental Adam (Inc-Adam), che processa un singolo campione per passo in ordine ciclico, come caso rappresentativo del regime mini-batch.

A. Approssimazione delle Dinamiche

Il principale ostacolo all'analisi di Adam è la sua dipendenza dalla storia completa dei gradienti. Gli autori superano questo problema dimostrando che, sotto condizioni di apprendimento (tasso di apprendimento decrescente e dati separabili), gli aggiornamenti di Inc-Adam possono essere approssimati da una funzione che dipende solo dall'iterato corrente.

Contrasto Full-batch vs. Incremental: Mentre il full-batch Adam può essere approssimato da SignGD (convergenza $\ell_\infty$ ), Inc-Adam si comporta come una Discesa del Gradiente Precondizionata Pesata. Il precondizionatore (la radice quadrata della media mobile esponenziale dei gradienti al quadrato) traccia la somma dei gradienti dei mini-batch, divergendo dal gradiente completo al quadrato.

B. Analisi su Dati Strutturati (Scaled Rademacher)

Per isolare l'effetto dell'adattività delle coordinate, gli autori introducono un dataset strutturato chiamato Scaled Rademacher (SR), dove l'ampiezza assoluta delle coordinate è costante per ogni campione.

Risultato: Su dati SR, l'adattività delle coordinate di Adam viene annullata. In questo caso, Inc-Adam converge alla soluzione a margine massimo $\ell_2$ , in netto contrasto con il comportamento $\ell_\infty$ del full-batch Adam. Questo dimostra che il regime mini-batch può alterare radicalmente il bias.

C. Caratterizzazione Generale (AdamProxy)

Per dataset generali, gli autori studiano il limite quando il parametro di momentum $\beta_2 \to 1$ . Introducono un algoritmo proxy chiamato AdamProxy.

Formulazione del Problema: La direzione di convergenza di AdamProxy è caratterizzata come la soluzione di un problema di massimizzazione del margine adattivo ai dati, definito da una norma di Mahalanobis.
Equazione di Punto Fisso: La matrice di covarianza associata alla norma di Mahalanobis è determinata da una equazione di punto fisso duale dipendente dai dati. La direzione limite $\hat{w}$ è proporzionale a $p(c^*)$ , dove $c^*$ è un punto fisso di una mappa $T$ che lega i duali del problema di ottimizzazione ai pesi dei campioni.
Casi Limite:
- Su dati SR, il punto fisso porta alla soluzione $\ell_2$ .
- Su dati "Shifted-diagonal", il punto fisso porta alla soluzione $\ell_\infty$ .
- Su dati Gaussiani generici, il punto fisso porta a una direzione intermedia, diversa sia da $\ell_2$ che da $\ell_\infty$ .

D. Confronto con Signum

Gli autori analizzano anche Signum (SignSGD con momentum). Dimostrano che, a differenza di Adam, Signum mantiene il bias verso la soluzione $\ell_\infty$ per qualsiasi dimensione del batch, purché il parametro di momentum $\beta$ sia sufficientemente vicino a 1.

3. Risultati Chiave

Dipendenza dal Batch Size: Il bias implicito di Adam non è universale; dipende criticamente dal regime di batch.
- Full-batch: Converge a $\ell_\infty$ -max-margin.
- Batch size 1 (Incremental): Può convergere a $\ell_2$ -max-margin (su dati SR) o a direzioni ibride dipendenti dai dati (su dati Gaussiani).
Meccanismo di Deviazione: La deviazione dal comportamento $\ell_\infty$ è causata dal fatto che il precondizionatore di Adam, nel regime stocastico, non approssima più correttamente la geometria $\ell_\infty$ del gradiente completo, ma introduce una dinamica di tipo "gradient descent pesato".
Robustezza di Signum: Signum è più robusto al cambiamento del regime di batch rispetto ad Adam, mantenendo il bias $\ell_\infty$ anche con batch piccoli, a condizione che il momentum sia alto.
Validazione Sperimentale: Gli esperimenti confermano che su dati Gaussiani, Adam full-batch converge a $\ell_\infty$ , mentre Adam con batch size 1 converge verso la soluzione predetta dal punto fisso (spesso vicina a $\ell_2$ o ibrida).

4. Significato e Implicazioni

Teoria dell'Ottimizzazione: Questo lavoro fornisce la prima evidenza teorica che il bias implicito di Adam è dipendente dai dati e dal regime di batch. Sfida l'idea che Adam sia intrinsecamente un ottimizzatore $\ell_\infty$ in tutte le condizioni.
Spiegazione del Gap Adam-SGD: La letteratura suggerisce che il vantaggio di Adam su SGD nei grandi modelli (es. LLM) deriva dalla sua capacità di sfruttare la geometria $\ell_\infty$ . Questo paper suggerisce che tale vantaggio potrebbe svanire o modificarsi in regime di mini-batch piccoli, offrendo una nuova prospettiva sul perché Adam e SGD si comportano diversamente in scenari di training reali.
Progettazione di Algoritmi: La distinzione tra Adam e Signum suggerisce che se l'obiettivo è preservare una specifica geometria di margine (come $\ell_\infty$ ) indipendentemente dal batch size, algoritmi basati sul segno (come Signum con alto momentum) potrebbero essere più adatti di Adam standard.
Limitazioni e Futuro: L'analisi si basa sul limite $\beta_2 \to 1$ e su un batch size di 1. Estendere il framework a $\beta_2 < 1$ e batch size maggiori rimane una direzione futura importante.

In sintesi, il paper rivela che la "magia" geometrica di Adam (il bias $\ell_\infty$ ) è fragile e dipende fortemente dall'uso di gradienti completi, mentre in scenari stocastici reali il suo comportamento diventa più complesso e dipendente dalla struttura specifica del dataset.