HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
Il paper introduce HTMuon, un metodo di ottimizzazione basato sulla teoria della regolarizzazione auto-organizzata a code pesanti che migliora l'algoritmo Muon correggendo spettri pesanti e riducendo la perplessità nel pre-addestramento di LLM e nella classificazione di immagini.