FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling
Il paper presenta FlashPrefill, un framework che abilita un prefilling ultra-rapido per modelli linguistici a lungo contesto attraverso la scoperta istantanea di pattern di attenzione e una soglia dinamica, ottenendo un speedup fino a 27,78x su sequenze di 256K senza degradare le prestazioni su contesti più brevi.