HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
El artículo presenta HTMuon, un optimizador que mejora el entrenamiento de modelos de lenguaje grandes al corregir la supresión de espectros de pesos de cola pesada inherente a Muon mediante una corrección espectral basada en la teoría de auto-regularización de colas pesadas, logrando así un mejor rendimiento en preentrenamiento y clasificación de imágenes.