Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
Diese Arbeit liefert den ersten theoretischen Beweis, dass Adam im Vergleich zu SGD unter der klassischen Annahme beschränkter Varianz durch eine zweite Momenten-Normalisierung eine überlegene Konvergenz mit einer -Abhängigkeit vom Konfidenzparameter erreicht, während SGD mindestens eine -Abhängigkeit aufweist.