Key-Value Means
O artigo apresenta as Médias Chave-Valor (KVM), um mecanismo inovador de recorrência em blocos para atenção que unifica os benefícios dos transformers e das RNNs lineares ao permitir treinamento eficiente e paralelizável por blocos com crescimento flexível do estado e tempo de preenchimento subquadrático, tudo isso utilizando operações padrão e parâmetros adicionais mínimos.