NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training
Ce papier présente NuMuon, un optimiseur qui ajoute une contrainte de norme nucléaire à Muon pour renforcer la structure de faible rang des poids des grands modèles de langage, améliorant ainsi leur compressibilité et leur qualité après compression tout en conservant une convergence efficace.