A Function-Centric Perspective on Flat and Sharp Minima
This paper challenges the conventional view that flat minima inherently ensure better generalization, arguing through extensive empirical studies that sharpness is a function-dependent property — sharper minima often correlate with improved performance, robustness, and calibration when models are properly regularized, though distinguishing task-driven sharpness from memorization-driven sharpness remains an open practical question.
L'analogia del chirurgo e del coltello da burro rimane centrale: un coltello da burro (un modello "smussato") può essere inadeguato per compiti complessi che richiedono precisione, mentre un coltello affilato (un modello "acuto") può essere lo strumento giusto per un lavoro chirurgico, a patto che sia affilato per la ragione corretta.
**Takeaway**
* La sharpness non è sempre un difetto — a volte è una caratteristica.
* I minimi acuti possono essere il risultato di una regolarizzazione efficace e di una migliore generalizzazione.
* La forma del minimo dipende dalla funzione appresa, non solo dalla complessità del modello.
In conclusione, sebbene il vecchio "regola" che equiparava la sharpness alla memorizzazione sia troppo semplice, la nuova regola non è ancora completa. Distinguere nella pratica tra un modello "acuto perché il compito è complesso" e uno "acuto perché ha memorizzato" rimane una domanda aperta. Il paper ci dice che non possiamo più giudicare un modello solo dalla sua affilatura, ma non ci fornisce ancora un metodo definitivo per identificare la memorizzazione basandoci sulla sharpness da sola.
Israel Mason-Williams, Gabryel Mason-Williams, Helen Yannakoudakis2026-04-16✓ Author reviewed ⓘ🤖 cs.LG