Key-Value Means
Der Artikel stellt Key-Value Means (KVM) vor, einen neuartigen Block-Rekurrenzmechanismus für die Aufmerksamkeit, der die Vorteile von Transformern und linearen RNNs vereint, indem er ein effizientes, chunk-paralleles Training mit flexibler Zustandsvergrößerung und subquadratischer Vorfüllzeit ermöglicht, und zwar allesamt unter Verwendung standardmäßiger Operationen und minimaler zusätzlicher Parameter.