How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando uma grande festa (o modelo de linguagem) onde cada convidado é uma palavra. O objetivo da festa é que todos se entendam e criem uma história coerente.

Nesta festa, existe um fenômeno curioso chamado "Sink" (Dreno ou Sumidouro de Atenção). Basicamente, é como se a maioria dos convidados, ao tentar conversar, olhasse obsessivamente para uma única pessoa, ignorando os outros. Geralmente, isso é ruim: se todos olham para o mesmo lugar, ninguém ouve o que os outros estão dizendo, e a conversa fica confusa.

No entanto, os pesquisadores descobriram uma exceção muito especial: a primeira palavra da frase (o "Token de Posição Zero"). Os modelos de IA sempre dão uma atenção desproporcional a ela. Antigamente, pensava-se que isso acontecia porque a primeira palavra era um "cartão de identificação" especial (chamado [BOS]) que o modelo aprendeu a amar.

O que este novo paper descobriu?

Os autores (do Shanghai AI Lab e da Universidade de Fudan) disseram: "Esperem, não é apenas o cartão de identificação. É algo mais profundo e estrutural."

Aqui está a explicação simplificada com analogias:

1. O "Dreno" não é mágico, é Arquitetura

A equipe descobriu que o modelo cria um "Circuito de Identificação" (P0-Sink Circuit) em apenas dois andares da sua "casa" (as camadas do modelo).

A Analogia do Espelho: Imagine que a primeira palavra é a única pessoa na sala que olha apenas para si mesma no espelho. Todas as outras pessoas olham para si mesmas e para quem está à frente.
Por causa das regras da festa (chamadas "máscaras de atenção causal"), a primeira palavra tem uma vantagem única: ela não pode olhar para trás, porque não há ninguém atrás dela. Ela só pode olhar para si mesma.
O modelo aprende rapidamente: "Ah, essa primeira palavra é especial porque ela é a única que se olha no espelho sozinha. Vamos dar a ela um superpoder."

2. O Superpoder: O "Cinto de Peso" (Norma L2)

O que o modelo faz com essa primeira palavra? Ele a "infla".

A Analogia do Cinto de Peso: Imagine que cada palavra é um atleta. A primeira palavra, ao passar por dois andares do modelo, recebe um cinto de peso gigante.
Isso faz com que ela fique "mais pesada" e "mais brilhante" (matematicamente, aumenta a norma L2 do vetor de estado oculto).
Quando os outros convidados (palavras seguintes) olham para a multidão, eles veem essa primeira palavra brilhando tanto e pesando tanto que é impossível ignorá-la. Ela se torna o âncora da conversa.

3. Por que isso é útil? (O Farol no Escuro)

Pode parecer estranho focar tanto na primeira palavra, mas é essencial para a estabilidade.

A Analogia do Farol: Imagine que você está dirigindo um carro em uma estrada escura e longa (um texto longo). Você precisa de um ponto de referência fixo para não se perder. A primeira palavra é esse farol.
Ela ajuda o modelo a manter a estrutura da frase, garantindo que, mesmo que o texto fique muito longo, o modelo saiba onde começou. Sem esse "dreno" na primeira palavra, o modelo poderia ficar confuso e esquecer o contexto inicial.

4. A Evolução durante o Treinamento (O Crescimento da Planta)

Os autores treinaram um modelo do zero e observaram como essa "árvore" cresceu:

Fase Inicial: O modelo tenta criar esse foco em vários lugares ao mesmo tempo (camadas do meio). É confuso.
Fase de Transição: O modelo tenta focar na segunda palavra, mas percebe que não é tão estável quanto a primeira.
Fase Final: O modelo "entende" a lógica da estrutura e concentra todo esse poder de ancoragem nas duas primeiras camadas, criando um sistema robusto e eficiente.

Conclusão Simples

Este paper nos ensina que a "obsessão" da IA pela primeira palavra não é um erro ou apenas por causa de um token especial que colocamos no início. É uma solução inteligente de engenharia que o próprio modelo inventou.

Ele usa a estrutura da linguagem (a primeira palavra não tem passado) para criar um ponto de referência superpoderoso que ajuda a manter a coerência de textos longos. É como se o modelo dissesse: "Para não nos perdermos na história, vamos garantir que a primeira página do livro seja a mais brilhante de todas."

Isso é importante porque, se entendermos como esse mecanismo funciona, podemos criar modelos melhores, mais eficientes e mais estáveis no futuro.

Each language version is independently generated for its own context, not a direct translation.

Título: Como os Attention Sinks Emergem em Grandes Modelos de Linguagem: Uma Perspectiva de Interpretabilidade

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) exibem um fenômeno conhecido como "Attention Sink" (Poço de Atenção), onde a atenção é desproporcionalmente alocada para tokens específicos, frequentemente os iniciais da sequência.

Contexto: Embora sinks em posições não iniciais sejam geralmente considerados prejudiciais (reduzindo a precisão e interferindo no raciocínio), existe uma exceção notável: o Poço de Atenção na Posição Zero (P0 Sink).
O Desafio: O modelo consistentemente foca no primeiro token da sequência de entrada. Embora isso seja correlacionado com melhor desempenho e usado em aplicações downstream (como StreamingLLM), os mecanismos precisos sobre como e por que esse sink emerge e persiste dentro da computação interna do modelo permanecem mal compreendidos.
Hipótese Anterior: Estudos anteriores sugeriam que esse fenômeno era um subproduto semântico do token especial [BOS] (Beginning-Of-Sequence).

2. Metodologia

Os autores utilizaram uma abordagem combinada de análise de circuitos, ablação e rastreamento de treinamento (training traces):

Análise Ablativa do [BOS]: Removeram o token [BOS] de modelos modernos (como LLaMA e Qwen) para verificar se o sink de posição zero persistia.
Identificação do Circuito (P0-Sink Circuit): Propuseram um mecanismo arquitetônico de duas camadas que explora a assimetria da máscara de atenção causal.
Análise de Normas e Direções: Investigaram a norma $\ell_2$ e a direção dos estados ocultos (hidden states) ao longo das camadas, utilizando PCA e visualizações t-SNE.
Rastreamento de Treinamento (Pre-training): Treinaram um modelo MoE (Mixture of Experts) de 30B parâmetros (com 3B ativados) do zero e monitoraram a evolução dos padrões de atenção em diferentes etapas de treinamento (de 15B a 780B tokens).
Modelagem Teórica: Desenvolveram um modelo simplificado baseado em cones para estimar teoricamente a norma da saída da atenção, considerando a distribuição dos vetores de valor.

3. Contribuições Chave

Desvinculação Semântica do [BOS]: Demonstraram que o sink na posição zero não depende da semântica do token [BOS]. Mesmo sem [BOS], o modelo aprende a identificar e amplificar a posição zero através de mecanismos estruturais mais profundos.
O Circuito P0-Sink: Formalizaram um mecanismo de duas camadas (Transformer Blocks) que:
- Identifica a posição zero explorando a assimetria da máscara causal (a posição zero só pode atender a si mesma, enquanto outras posições atendem a contextos misturados).
- Amplifica a norma $\ell_2$ do estado oculto na posição zero.
- Projeta esse estado em uma direção fixa e consistente no espaço de representação.
Estágios de Formação durante o Pré-treinamento: Caracterizaram a emergência do circuito como um processo de três estágios:
- Estágio Inicial: O circuito emerge em camadas médias.
- Estágio de Transição: O sink se espalha para múltiplas posições iniciais e, temporariamente, pode migrar para a posição 1.
- Estágio Final: O sink se concentra e estabiliza firmemente nas primeiras duas camadas (camadas 0 e 1), formando o circuito robusto observado em modelos treinados.

4. Resultados Principais

Mecanismo de Identificação: A posição zero possui uma vantagem estrutural única sob atenção causal: ela é a única que não sofre "mistura" de contextos de tokens anteriores. Isso cria um sinal de assimetria que as camadas MLP subsequentes podem detectar e amplificar.
Amplificação da Norma $\ell_2$ : O MLP (Multi-Layer Perceptron) nas camadas iniciais aumenta drasticamente a magnitude (norma $\ell_2$ $ℓ_{2}$ ) do estado oculto da posição zero.
- Por que isso importa? Em modelos com normalização pré-MLP (pre-norm), vetores de alta magnitude são menos sensíveis a atualizações de gradiente, preservando sua direção e estabilidade durante todo o treinamento.
Evidência Empírica:
- Em modelos como LLaMA-3.1-8B e Qwen3, mesmo sem [BOS], o sink reaparece na camada 2 com alta norma $\ell_2$ .
- A ablação de cabeças de atenção individuais não remove o efeito, indicando que é um comportamento colaborativo de cabeças que distribuem atenção uniformemente.
Dinâmica de Treinamento:
- O circuito P0-Sink emerge cedo (cerca de 15B tokens) em camadas médias.
- À medida que o treinamento avança (ex: 230B tokens), o padrão se expande para os primeiros tokens.
- No estágio final (ex: 780B tokens), o mecanismo se consolida exclusivamente nas camadas 0 e 1, tornando-se o "ponto de ancoragem" estável para a atenção do modelo.
Indicador de Convergência: O estágio em que o circuito se estabiliza (se é nas camadas iniciais ou médias) pode servir como um sinal diagnóstico para o estado de convergência do pré-treinamento.

5. Significado e Implicações

Viés Arquitetônico Implícito: O trabalho revela que os Transformers possuem um viés arquitetônico intrínseco (devido à máscara causal e normalização) que favorece a criação de um "ancoragem" na posição zero, independentemente dos dados ou tokens específicos.
Estabilidade em Contextos Longos: O P0 Sink atua como um ponto de referência estável, ajudando o modelo a manter a coerência em sequências longas e a evitar o colapso de rank (rank collapse) ou a mistura excessiva de representações.
Diagnóstico de Treinamento: A evolução do padrão de sink (de camadas médias para camadas iniciais) oferece uma nova métrica para monitorar se um modelo está bem treinado ou se precisa de mais iterações de pré-treinamento.
Aplicações Práticas: Entender esse mecanismo pode levar a melhorias em:
- StreamingLLM: Otimização de janelas de atenção para inferência eficiente.
- Design de Modelos: Possibilidade de projetar arquiteturas que explorem ou mitiguem intencionalmente esses sinks para melhorar a eficiência ou a capacidade de raciocínio.
- Interpretabilidade: Oferece uma ferramenta para "desvendar" como os modelos processam a estrutura da sequência.

Conclusão

O artigo demonstra que o "Attention Sink" na posição zero é um fenômeno fundamental e robusto, impulsionado por uma assimetria estrutural na atenção causal e amplificado por mecanismos de normalização e MLP nas camadas iniciais, e não apenas por tokens especiais como o [BOS]. A descoberta do "P0-Sink Circuit" fornece uma explicação mecanística clara para um comportamento observado há anos e abre novas portas para a análise e otimização de LLMs.

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

1. O "Dreno" não é mágico, é Arquitetura

2. O Superpoder: O "Cinto de Peso" (Norma L2)

3. Por que isso é útil? (O Farol no Escuro)

4. A Evolução durante o Treinamento (O Crescimento da Planta)

Conclusão Simples

Título: Como os Attention Sinks Emergem em Grandes Modelos de Linguagem: Uma Perspectiva de Interpretabilidade

1. O Problema

2. Metodologia

3. Contribuições Chave

4. Resultados Principais

5. Significado e Implicações

Conclusão

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models