YuriiFormer: A Suite of Nesterov-Accelerated Transformers
Die Arbeit stellt einen Variationsrahmen vor, der Transformer-Schichten als Optimierungsalgorithmen interpretiert, und nutzt diese Perspektive, um einen Nesterov-beschleunigten Transformer zu entwickeln, der auf TinyStories und OpenWebText eine bessere Leistung als ein nanoGPT-Baseline erzielt.