TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers
O artigo apresenta o TrasMuon, um otimizador que combina a geometria quase isométrica dos métodos Muon com calibração global e um mecanismo de região de confiança baseado em energia para estabilizar magnitudes e melhorar a convergência e robustez em modelos de visão e linguagem, mesmo sem etapas de warmup.