Key-Value Means
Le papier présente les Moyennes Clé-Valeur (KVM), un nouveau mécanisme de récurrence par blocs pour l'attention qui unifie les avantages des transformateurs et des RNN linéaires en permettant un entraînement efficace et parallélisable par blocs avec une croissance flexible de l'état et un temps de préremplissage sous-quadratique, le tout en utilisant des opérations standard et un nombre minimal de paramètres supplémentaires.