VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
Die Arbeit stellt VSPrefill vor, eine vertikal-schräg strukturierte, sparse-Attention-Methode mit leichtgewichtiger Indexierung, die durch adaptive Budgetzuweisung und On-the-Fly-Indexierung bei langen Kontexten (bis 128k) eine 4,95-fache Beschleunigung bei nur minimalen Genauigkeitsverlusten erreicht.