Correction of Transformer-Based Models with Smoothing Pseudo-Projector
Este artigo apresenta o "pseudo-projetor", uma modificação leve inspirada no paradigma multigrid que atua como um corretor de representações ocultas para reduzir a sensibilidade ao ruído e melhorar a dinâmica de treinamento e a robustez em modelos baseados em transformers, sem alterar sua arquitetura central.