Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
Le papier présente Mousse, un nouvel optimiseur qui améliore l'algorithme Muon en intégrant une estimation de la courbure via Shampoo pour adapter les mises à jour spectrales aux paysages d'optimisation anisotropes des réseaux de neurones, réduisant ainsi le nombre d'étapes d'entraînement d'environ 12 % avec un surcoût computationnel négligeable.