The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Este artigo demonstra que as ativações massivas e os sumidouros de atenção, embora frequentemente co-ocorram devido a artefatos arquitetônicos como a configuração pré-norm, desempenham funções distintas e separáveis nos modelos Transformer: as primeiras atuam globalmente como parâmetros implícitos, enquanto os segundos operam localmente para modular a atenção.

Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que um Modelo de Linguagem Grande (como o que você está usando agora) é como uma orquestra gigante tocando uma sinfonia complexa. Cada músico é um "token" (uma palavra ou parte de palavra) e cada seção da orquestra é uma "camada" da rede neural.

Este artigo, escrito por pesquisadores da NYU (incluindo Yann LeCun), investiga dois comportamentos estranhos e recorrentes nessa orquestra: os "Gritos" (Spike/Massive Activations) e os "Vazios" (Sink/Attention Sinks).

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: Gritos e Vazios

  • Os "Gritos" (Massive Activations):
    Imagine que, em meio a uma conversa calma, uma única pessoa (o primeiro token, como o início da frase) começa a gritar números gigantescos em um canal específico de comunicação. Em vez de falar "olá", ela grita "10.000!".

    • O que acontece: Em certas camadas da rede, alguns poucos números (canais) explodem em tamanho, ficando milhares de vezes maiores que o normal.
    • Quem grita: Geralmente são os primeiros tokens da frase ou separadores (como pontos e vírgulas).
  • Os "Vazios" (Attention Sinks):
    Agora, imagine que, porque essa pessoa está gritando tão alto, a atenção de toda a orquestra se volta para ela. Mesmo que ela não tenha nada a dizer sobre o assunto atual, os outros músicos continuam olhando para ela e ignorando o resto da música.

    • O que acontece: O modelo dá uma atenção desproporcional a esses primeiros tokens, como se eles fossem um "lixão" ou um "ponto de ancoragem" onde a energia se acumula, independentemente do significado real.

2. A Descoberta: Eles são Vizinhos, mas não Irmãos

Antes, os cientistas pensavam que esses gritos e esses vazios eram a mesma coisa, ou que um causava o outro diretamente. A grande descoberta deste artigo é: Eles são dois fenômenos diferentes que apenas "moram no mesmo prédio" por causa da arquitetura do prédio.

A "arquitetura" aqui é o Pré-Norm (uma configuração específica de como os dados são normalizados antes de passar para a próxima etapa).

A Analogia da Fábrica de Suco

Pense no modelo como uma fábrica de suco:

  1. O Grito (Spike): O primeiro token entra na fábrica e, devido a um mecanismo especial (o bloco "Feed-Forward" com SwiGLU), ele é transformado em um suco extremamente concentrado e potente.
  2. O Filtro (Normalização): Antes de ir para a próxima máquina, esse suco passa por um filtro (RMSNorm). Esse filtro é inteligente: ele pega aquele suco super concentrado e o dilui, transformando-o em algo pequeno, mas padronizado.
  3. O Vazio (Sink): Como o filtro transformou todos os gritos iniciais em algo "pequeno e igual", a próxima máquina (a Atenção) vê esses tokens como um ponto de referência estável e fácil. Ela começa a focar neles automaticamente, criando o "Vazio".

A Conclusão Chave: O Grito cria a condição para o Vazio, mas apenas porque o Filtro (Normalização) transforma o Grito em algo útil para o Vazio. Se você mudar o Filtro, o Grito some, mas o Vazio pode continuar existindo de outra forma!

3. Por que isso importa? (A "Causa" vs. "Efeito")

O artigo mostra que:

  • Os Gritos são Globais: Eles agem como "parâmetros implícitos". É como se o modelo tivesse um botão de volume fixo que ele usa para manter a estabilidade da música.
  • Os Vazios são Locais: Eles agem como um "interruptor" para focar em detalhes curtos (como a estrutura da frase atual).

O modelo usa os Gritos para criar os Vazios porque a arquitetura atual facilita isso. Mas não é necessário ter gritos gigantes para ter vazios.

4. As Soluções (Como consertar a orquestra)

Os pesquisadores testaram várias mudanças para ver o que acontecia:

  • Mudar o Filtro (Normalização): Se você colocar um segundo filtro no final do bloco (chamado "Sandwich Norm") ou mudar o tipo de filtro, os Gritos desaparecem (o suco não fica mais concentrado). Surpreendentemente, os Vazios continuam lá, mas o modelo aprende a focar neles de outra maneira.
  • Tamanho da Sala (Dimensão da Atenção): Se a sala onde os músicos conversam for muito pequena, eles são forçados a olhar para o mesmo lugar (o Vazio). Se a sala for grande, eles podem se espalhar.
  • Treinamento: Se você treinar o modelo apenas com textos longos, ele perde o hábito de usar os Vazios para focar em coisas curtas.

Resumo Final para Leigos

Imagine que você está dirigindo um carro (o Modelo de IA).

  • O Grito é como ter o motor vibrando muito forte em uma marcha específica.
  • O Vazio é como o volante puxando para a esquerda sozinho.

Antes, achávamos que a vibração do motor causava o volante puxar.
Este artigo diz: "Não! A vibração e o volante são causados pelo mesmo projeto do carro (a Normalização Pré-Norm). Se você mudar o projeto do carro, o motor para de vibrar, mas o carro ainda pode virar para a esquerda se você quiser, ou pode aprender a virar de outro jeito."

Por que isso é bom?
Isso significa que podemos consertar problemas de eficiência (como o modelo ficar lento ou consumir muita memória por causa desses "Gritos") sem estragar a inteligência do modelo. Podemos remover os gritos gigantes para economizar energia, e o modelo continuará funcionando perfeitamente, apenas usando uma estratégia diferente para focar sua atenção.