Stem: Rethinking Causal Information Flow in Sparse Attention
O artigo apresenta o Stem, um módulo de esparsidade plug-and-play que otimiza o fluxo de informação em mecanismos de atenção causal ao empregar uma seleção top-k dependente da posição e uma métrica consciente da saída, superando o gargalo computacional de modelos de linguagem grandes em contextos longos com maior precisão e menor latência.