Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.