VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
Il paper presenta VSPrefill, un meccanismo di attenzione sparsa basato su pattern verticali e diagonali che, tramite un indice leggero e strategie adattive, riduce la complessità del prefilling a scala lineare ottenendo un'accelerazione di 4,95 volte su contesti lunghi fino a 128k senza compromettere significativamente l'accuratezza.