IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

O artigo apresenta o IndexCache, uma técnica que acelera a atenção esparsa em modelos de linguagem de grande escala ao reutilizar índices de camadas anteriores, reduzindo em até 75% os cálculos do indexador e aumentando a velocidade de inferência sem comprometer significativamente a qualidade do modelo.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha (o Modelo de Inteligência Artificial) tentando preparar um prato complexo (responder a uma pergunta) usando uma biblioteca gigante de receitas (o contexto longo).

O Problema: O "Chefe" Exausto

Normalmente, para cada passo da receita, o chef precisa ler todas as páginas do livro de receitas para decidir qual ingrediente usar a seguir. Se o livro tiver 200.000 páginas, isso é muito trabalho!

Para resolver isso, o modelo DeepSeek Sparse Attention (DSA) criou um ajudante rápido (o "Indexer"). Antes de o chef principal ler tudo, esse ajudante dá uma olhada rápida e diz: "Ei, não leia as 200.000 páginas! Apenas as páginas 10, 45 e 99 são importantes para este passo."

Isso economiza muito tempo. Mas há um problema:

  • Em uma cozinha gigante (um modelo com muitas camadas), você tem um ajudante diferente para cada etapa da receita.
  • Mesmo que o ajudante seja rápido, ter 50 ajudantes diferentes trabalhando em um livro de 200.000 páginas ainda gasta muita energia e tempo. Eles estão todos fazendo o mesmo trabalho de varrer o livro, apenas para chegar à mesma conclusão: "Ah, as páginas 10, 45 e 99 são as melhores!".

A Solução: O "IndexCache" (O Armário de Dicas Compartilhado)

A equipe do IndexCache percebeu algo genial: os ajudantes das etapas vizinhas quase sempre concordam! Se o ajudante da etapa 10 diz que as páginas 10, 45 e 99 são importantes, o ajudante da etapa 11 provavelmente dirá a mesma coisa. Eles são como irmãos que têm o mesmo paladar.

O IndexCache propõe uma mudança simples na cozinha:

  1. Divida a equipe: Em vez de ter um ajudante em cada etapa, você mantém apenas alguns Chefe-Ajudantes (chamados de camadas "Full" ou F) que leem o livro e escolhem as páginas importantes.
  2. Compartilhe a dica: Para as etapas intermediárias (chamadas de camadas "Shared" ou S), você não usa um ajudante novo. Você simplesmente pega a lista de páginas que o último Chefe-Ajudante escolheu e passa para frente.
    • Analogia: É como se o Chefe da Etapa 10 escrevesse um bilhete: "Use as páginas 10, 45 e 99". O Chefe da Etapa 11, 12 e 13 apenas lêem esse bilhete e seguem em frente, sem precisar abrir o livro de novo.

Como eles decidem quem fica e quem sai?

O papel apresenta duas formas inteligentes de organizar isso:

  1. Sem Treinamento (O Detetive Esperto): Eles pegam um modelo que já existe e testam, passo a passo, quais ajudantes podem ser demitidos sem estragar o prato. Eles usam um algoritmo "ganancioso" (que escolhe a melhor opção imediata) para descobrir o padrão perfeito.
    • Resultado: Eles conseguem demitir 75% dos ajudantes sem que a comida fique ruim.
  2. Com Treinamento (O Treinador Especializado): Eles treinam o modelo desde o início sabendo que os ajudantes vão compartilhar dicas. Eles ensinam os poucos ajudantes que ficam a serem tão bons que suas dicas servem perfeitamente para várias etapas ao mesmo tempo.
    • Resultado: Mesmo com um padrão simples (trocar ajudante a cada 4 etapas), o modelo funciona tão bem quanto se tivesse ajudantes em todas as etapas.

Os Resultados na Prática

Com essa técnica, o modelo ficou muito mais rápido:

  • Na preparação (Prefill): O modelo processa textos longos 1,8 vezes mais rápido. É como se a cozinha tivesse dobrado de tamanho sem contratar mais gente.
  • Na entrega (Decode): A resposta final sai 1,5 vezes mais rápido.
  • Qualidade: O prato (a resposta do modelo) continua com o mesmo sabor. Não houve perda de qualidade nas tarefas de raciocínio ou leitura de textos longos.

Resumo em uma Frase

O IndexCache é como perceber que, em uma linha de montagem gigante, você não precisa de um supervisor verificando cada peça individualmente; basta ter alguns supervisores estratégicos e deixar o resto da equipe seguir as instruções deles, economizando tempo e energia sem perder a qualidade do produto final.