HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
Cet article présente HTMuon, une méthode d'optimisation qui améliore l'algorithme Muon en introduisant une correction spectrale à queues lourdes pour générer des mises à jour plus robustes et réduire la perplexité lors de l'entraînement de modèles de langage, tout en offrant une garantie théorique de convergence.