Correction of Transformer-Based Models with Smoothing Pseudo-Projector
Ce papier présente le « pseudo-projecteur », une modification légère inspirée du paradigme multigrille qui corrige les représentations cachées des modèles basés sur les transformateurs pour réduire leur sensibilité au bruit et améliorer la dynamique d'entraînement, sans altérer leur architecture de base.