Stem: Rethinking Causal Information Flow in Sparse Attention
Das Paper stellt Stem vor, ein modulares Sparse-Attention-Verfahren, das durch eine positionsabhängige Top-k-Auswahl und eine output-bewusste Metrik die kausalen Informationsflüsse in Large Language Models effizienter gestaltet und dabei Rechenkosten sowie Latenz bei langer Kontextverarbeitung senkt.