VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
O VSPrefill é um mecanismo de atenção esparsa com treinamento leve que explora padrões estruturais verticais e diagonais para reduzir a complexidade do pré-preenchimento de contexto longo para linear, alcançando um aceleramento médio de 4,95x em 128k tokens com apenas 1,65% de perda de precisão em modelos como Qwen3 e LLaMA-3.1.