YuriiFormer: A Suite of Nesterov-Accelerated Transformers
Ce papier propose un cadre variationnel interprétant les couches des transformers comme des itérations d'algorithmes d'optimisation, permettant de concevoir une architecture accélérée par Nesterov qui surpasse les modèles de base sur des tâches de génération de texte.