Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
Dit paper biedt de eerste theoretische scheiding tussen Adam en SGD door aan te tonen dat de tweede-momentnormalisatie in Adam zorgt voor een scherpere staart in de convergentie, met een afhankelijkheid van in plaats van de noodzakelijke bij SGD.