HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
O artigo apresenta o HTMuon, um otimizador que melhora o treinamento de modelos de linguagem grandes ao corrigir a supressão de espectros de pesos de cauda pesada no Muon original, resultando em melhor desempenho e fundamentação teórica baseada na teoria de auto-regularização de cauda pesada.