Fisher-Geometric Diffusion in Stochastic Gradient Descent: Optimal Rates, Oracle Complexity, and Information-Theoretic Limits
Cet article établit une théorie géométrique de Fisher pour la descente de gradient stochastique où le bruit de mini-lots est modélisé par une matrice intrinsèque liée à l'information de Fisher, permettant de prouver des bornes minimax optimales et des garanties de complexité d'oracle qui dépendent de la structure informationnelle du problème plutôt que de la dimension ambiante.