Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
Dit paper introduceert Mousse, een nieuwe optimizer die de stabiliteit van Muon combineert met de geometrische aanpassing van Shampoo door spectrale updates uit te voeren in een witgemaakte coördinatenruimte, wat leidt tot een aanzienlijke versnelling van het trainingsproces voor taalmodellen zonder noemenswaardige rekenkosten.