Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Questo lavoro dimostra che l'implicit bias dell'ottimizzatore Adam su dati separabili dipende criticamente dal regime di batch e dal dataset, potendo convergere verso un classificatore a margine massimo 2\ell_2 in modalità incrementale a differenza della tendenza \ell_\infty del full-batch, mentre l'algoritmo Signum mantiene un bias invariato verso \ell_\infty indipendentemente dalla dimensione del batch.

Beomhan Baek, Minhak Song, Chulhee Yun

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a distinguere tra gatti e cani. Hai migliaia di foto, e il tuo obiettivo è trovare la "linea di confine" perfetta che separi i due gruppi.

In questo mondo, ci sono due "maestri" (ottimizzatori) che guidano il robot: GD (Gradient Descent) e Adam.

  • GD è come un escursionista che cammina passo dopo passo, seguendo la pendenza più ripida. È lento ma molto prevedibile: tende a trovare la soluzione più "equilibrata" e rotonda (chiamata massimo margine L2).
  • Adam, invece, è come un ciclista esperto che usa le marce. Si adatta alla strada: se la pendenza è ripida, accelera; se è piatta, rallenta. È velocissimo ed è lo standard nell'industria.

Tuttavia, c'è un mistero: come decide Adam quale strada prendere?

Il Problema: La Trappola del "Batch Completo"

Fino a poco tempo fa, gli scienziati pensavano che Adam avesse un "bias" (una preferenza nascosta) molto specifico: tendeva a scegliere soluzioni "angolose", come se volesse tagliare gli spigoli della soluzione (chiamato massimo margine L∞).

Ma c'era un problema: tutti questi studi erano fatti in un mondo ideale, dove il robot guardava tutte le foto contemporaneamente prima di fare un passo (chiamato full-batch). Nella realtà, però, i robot moderni guardano le foto una alla volta o in piccoli gruppi (chiamato mini-batch o incrementale).

La Scoperta: Adam cambia personalità

Gli autori di questo paper hanno scoperto qualcosa di sorprendente: quando Adam lavora guardando un solo esempio alla volta, cambia completamente carattere.

Ecco l'analogia per capire il risultato:
Immagina che Adam sia un chef.

  • Se ha davanti tutti gli ingredienti (full-batch) e deve preparare un piatto, sceglie sempre un sapore molto forte e specifico (il gusto "angoloso" L∞).
  • Ma se gli dai un solo ingrediente alla volta (incremental Adam), il suo gusto cambia. Invece di cercare l'angolo più netto, inizia a cercare la soluzione più "rotonda" e bilanciata (il gusto L2), proprio come farebbe l'escursionista GD!

In pratica, il modo in cui Adam "adatta" i suoi passi (la sua intelligenza artificiale) funziona benissimo quando vede tutto il quadro, ma quando vede solo un pezzetto alla volta, quella sua intelligenza si "confonde" e finisce per comportarsi in modo diverso, a volte addirittura meglio di quanto ci si aspettasse.

L'Eccezione: Il "Signum" (Il Robot Testardo)

Il paper introduce anche un altro personaggio: Signum.
Se Adam è un ciclista che cambia marcia in base alla strada, Signum è un robot che ignora completamente la strada e guarda solo la direzione (su o giù).
Gli scienziati hanno dimostrato che Signum è "testardo": non importa se guarda una foto alla volta o tutte insieme, rimane sempre fedele al suo gusto "angoloso" (L∞). Non cambia mai idea.

Perché è importante?

Questa ricerca ci dice due cose fondamentali:

  1. Non possiamo generalizzare: Quello che funziona quando addestriamo un modello guardando tutti i dati insieme, non funziona quando lo facciamo guardando i dati uno alla volta. Le regole del gioco cambiano.
  2. Il dato conta: La "personalità" finale di Adam non dipende solo dall'algoritmo, ma anche dai dati che gli diamo. Su alcuni dati, diventa un cercatore di soluzioni rotonde; su altri, torna a cercare quelle angolose.

In sintesi

Il paper ci insegna che Adam non è un algoritmo con una sola anima.

  • Se lo fai lavorare "a vista d'occhio" (tutti i dati), è un cercatore di angoli.
  • Se lo fai lavorare "a tentoni" (un dato alla volta), diventa un cercatore di equilibrio.

È come se un artista, quando ha la tela intera davanti, dipingesse con pennellate nette e decise, ma se gli dessi un solo centimetro di tela alla volta, iniziasse a mescolare i colori in modo più morbido e sfumato. Capire questa differenza è cruciale per costruire intelligenze artificiali più intelligenti e prevedibili.