VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
Dit paper introduceert VSPrefill, een methode voor verticale-slash-sparse attention met lichtgewicht indexering die de kwadratische complexiteit van self-attention tijdens de prefill-fase reduceert tot lineaire complexiteit, waardoor langere contexten efficiënter kunnen worden verwerkt met behoud van hoge nauwkeurigheid.