The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Questo studio dimostra che ottimizzatori basati su momentum come Adam e Muon, quando applicati a reti neurali omogenee lisce, seguono traiettorie approssimate di discesa ripida normalizzata con un tasso di apprendimento decrescente, portando a una bias implicito verso punti KKT di problemi di massimizzazione del margine la cui identità dipende dalla norma scelta dall'ottimizzatore.

Eitan Gronich, Gal Vardi

Pubblicato 2026-03-04
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un gruppo di studenti (la tua rete neurale) a distinguere le foto di gatti da quelle di cani. Il tuo obiettivo è trovare la regola perfetta che separi i due gruppi. Ma c'è un problema: ci sono infinite regole che funzionano perfettamente sui dati di allenamento. Quale sceglierai?

La ricerca di Eitan Gronich e Gal Vardi del Weizmann Institute of Science ci dice che la risposta non dipende solo dai dati, ma da come insegni agli studenti a imparare. In termini tecnici, ogni algoritmo di ottimizzazione ha un "pregiudizio implicito" (una tendenza nascosta) che lo spinge verso una soluzione specifica, anche se non glielo dici esplicitamente.

Ecco una spiegazione semplice di cosa hanno scoperto, usando metafore quotidiane.

1. Il Concetto di Base: La "Soglia di Sicurezza"

Immagina che ogni studente (ogni punto dati) debba stare a una certa distanza dal confine tra "gatto" e "cane". Più sono lontani dal confine, più sono sicuri di non sbagliare. Questo è il margine.

  • L'obiettivo: Trovare la regola che massimizza questa distanza di sicurezza per tutti gli studenti.
  • Il problema: Ci sono molti modi per massimizzare questa distanza, a seconda di come misuri la "distanza".

2. I "Metodi di Studio" (Gli Ottimizzatori)

Il paper analizza tre modi principali in cui gli algoritmi "studiano" e correggono i loro errori. Ognuno ha una personalità diversa:

A. La Discesa del Gradiente (GD) - Il "Misuratore Classico"

Immagina un escursionista che scende una montagna. Se usa un metodo classico (Gradient Descent), cammina sempre nella direzione più ripida, ma misura la distanza con un metro standard (la norma L2, come la distanza in linea retta).

  • Risultato: Tende a trovare la soluzione che massimizza il margine usando questo metro standard. È il metodo "classico" e prevedibile.

B. Adam - Il "Corridore Frettoloso"

Adam è l'algoritmo più usato oggi (specialmente per le Intelligenze Artificiali che scrivono testi). È come un corridore che guarda solo il passo immediato e si adatta velocemente, ignorando il passato lontano.

  • La scoperta: Gli autori hanno scoperto che Adam, quando la "velocità di apprendimento" diminuisce (come quando si avvicina alla fine della corsa), smette di usare il metro standard. Inizia a comportarsi come se usasse un metro a righe (la norma L-infinito).
  • In pratica: Adam cerca di massimizzare la sicurezza basandosi sul "peggior caso possibile" (il margine più piccolo), ignorando le piccole variazioni. È come se dicesse: "Non importa quanto sono sicuro degli altri, devo solo assicurarmi che questo studente non sbagli".

C. Muon - Il "Regista delle Forme"

Muon è un nuovo algoritmo molto popolare per le grandi reti neurali. Immagina che invece di guardare i singoli studenti, Muon guardi l'intera classe come un blocco unico e cerchi di mantenere una certa "forma" o struttura geometrica (usando le norme spettrali delle matrici).

  • La scoperta: Muon ha un pregiudizio verso una misura di distanza molto specifica, legata alla "forza" delle sue connessioni interne (norma spettrale).
  • Il mix (Muon-Adam): Se usi Muon per le connessioni pesanti (i neuroni) e Adam per le altre parti, l'algoritmo crea un ibrido. Massimizza la sicurezza secondo una regola che è il "massimo" tra le due misure: la forma geometrica di Muon e la rigidità di Adam.

3. L'Analogia della "Pista da Corsa"

Immagina che l'addestramento della rete neurale sia una corsa su una pista infinita.

  • Il percorso: È la funzione di perdita (quanto sbagliamo).
  • La meta: È il punto dove non sbagliamo più nulla.
  • Il pregiudizio implicito: È la traiettoria che l'algoritmo sceglie di seguire.
    • Se usi un algoritmo "lento e costante" (Gradiente), seguirai un sentiero che porta a un punto specifico della meta.
    • Se usi Adam, il tuo sentiero si piegherà verso un punto diverso, anche se arrivi allo stesso risultato finale.
    • Se usi Muon, il tuo sentiero seguirà una curva ancora diversa, basata sulla geometria complessa della pista.

4. Perché è importante?

Prima di questo studio, sapevamo che gli algoritmi "trovavano" soluzioni che generalizzavano bene (funzionavano bene su dati nuovi), ma non sapevamo perché sceglievano proprio quella soluzione tra le infinite possibili.

Gli autori hanno dimostrato che:

  1. Non è magia: È una conseguenza matematica precisa di come l'algoritmo si muove.
  2. La scelta conta: Se vuoi che la tua AI sia robusta contro certi tipi di errori, devi scegliere l'algoritmo giusto. Se vuoi massimizzare la sicurezza del "caso peggiore", Adam è ottimo. Se vuoi una struttura geometrica specifica, Muon è la scelta.
  3. La teoria conferma la pratica: Hanno fatto esperimenti su immagini reali (MNIST, i numeri scritti a mano) e hanno visto che gli algoritmi facevano esattamente quello che la teoria prediceva: Adam massimizzava il margine "L-infinito", Muon quello "spettrale", e così via.

In sintesi

Questo paper ci dice che l'algoritmo che scegli non è solo uno strumento per arrivare alla meta, ma è anche l'architetto che decide quale meta raggiungere.

  • Adam è come un avvocato difensore che si concentra solo sul caso più debole del cliente per garantirne l'assoluzione totale.
  • Muon è come un architetto che progetta un edificio basandosi sulla forza strutturale massima delle sue travi.
  • Gradient Descent è il geometra che misura tutto con il metro classico.

Capire queste "personalità" nascoste ci aiuta a costruire Intelligenze Artificiali più sicure, robuste e prevedibili.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →