Key-Value Means
Il documento introduce Key-Value Means (KVM), un nuovo meccanismo di ricorrenza a blocchi per l'attenzione che unisce i vantaggi dei transformer e degli RNN lineari abilitando un addestramento efficiente e parallelizzabile a blocchi con crescita flessibile dello stato e tempo di prefill subquadratico, tutto ciò utilizzando operazioni standard e parametri aggiuntivi minimi.