MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
Il paper propone MiTA Attention, un meccanismo efficiente che unifica metodi di attenzione esistenti in un quadro comune di scalatura dei pesi veloci e introduce una strategia di compressione e instradamento che riduce la complessità aggregando le coppie chiave-valore più attivate per un insieme limitato di query landmark.