Stem: Rethinking Causal Information Flow in Sparse Attention
Dit paper introduceert Stem, een plug-and-play module die de causale informatiestroom in LLM's optimaliseert door position-afhankelijke selectie en output-bewuste metrics te gebruiken, waardoor de kwadratische complexiteit van self-attention wordt doorbroken en de pre-filling-latentie voor lange contexten aanzienlijk wordt verlaagd zonder in te leveren op nauwkeurigheid.