A Function-Centric Perspective on Flat and Sharp Minima
This paper challenges the conventional view that flat minima inherently ensure better generalization, arguing through extensive empirical studies that sharpness is a function-dependent property — sharper minima often correlate with improved performance, robustness, and calibration when models are properly regularized, though distinguishing task-driven sharpness from memorization-driven sharpness remains an open practical question.
Cependant, il est important de noter une nuance cruciale : la netteté peut TOUJOURS parfois indiquer une solution mémorisée. L'article ne rejette pas cette possibilité ; il souligne simplement que la netteté seule n'est pas un signal fiable pour trancher entre une généralisation réussie et une mémorisation.
**À retenir :**
* La netteté n'est pas toujours un défaut — parfois, c'est une caractéristique.
* Un minimum plat n'est pas une garantie de généralisation, tout comme un minimum net n'est pas une garantie d'échec.
* Le contexte de la tâche et la structure du modèle comptent plus que la simple géométrie du paysage de perte.
En conclusion, bien que cet article montre que l'ancienne règle « plat = bon, net = mauvais » soit trop simpliste, il ne nous fournit pas encore de nouvelle règle définitive pour distinguer, en pratique, une netteté due à la complexité de la tâche d'une netteté due à la mémorisation. Trier ces deux cas reste une question ouverte.
Israel Mason-Williams, Gabryel Mason-Williams, Helen Yannakoudakis2026-04-16✓ Author reviewed ⓘ🤖 cs.LG