Correction of Transformer-Based Models with Smoothing Pseudo-Projector
Il paper propone il "pseudo-proiettore", una modifica leggera ispirata al paradigma multigriglia che corregge le rappresentazioni nascoste dei modelli basati su transformer riducendo la sensibilità al rumore e migliorando la dinamica di addestramento e la robustezza senza alterare l'architettura di base.