Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
Il paper propone Mousse, un nuovo ottimizzatore che combina la stabilità spettrale di Muon con l'adattabilità geometrica di Shampoo tramite una precondizionamento consapevole della curvatura, ottenendo una riduzione del 12% dei passi di addestramento per modelli linguistici senza sovraccarichi computazionali significativi.