On the Existence and Behavior of Secondary Attention Sinks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme muito longo e complexo, onde os personagens (as palavras) estão conversando entre si. Em uma sala de cinema cheia, geralmente há um "foco" natural: a tela principal ou o narrador no início da história. Todos os olhos tendem a voltar para eles, mesmo que eles não digam nada de novo naquele momento.

No mundo das Inteligências Artificiais (IA), isso é chamado de "Sink de Atenção" (ou "Ponto de Foco"). A pesquisa anterior descobria que o primeiro token (a primeira palavra, como o "Início da Sequência") sempre recebia uma atenção exagerada, como se fosse um ímã que puxava todos os olhares.

Mas este novo artigo, aceito no ICLR 2026, descobriu algo fascinante: existem outros ímãs escondidos no meio da sala.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Ímã Principal vs. Os Ímãs Secundários

O Ímã Principal (Primary Sink): É como o apresentador de um show. Ele está no palco desde o início (o primeiro token) e o público (a atenção da IA) continua olhando para ele do começo ao fim do show. Ele nunca perde a atenção.
Os Ímãs Secundários (Secondary Sinks): A descoberta do artigo é que, no meio do show, surgem outros "focos" inesperados. Imagine que, no meio de uma peça de teatro, um ator que estava apenas segurando um objeto sem importância de repente começa a brilhar e atrair todos os olhares.
- Esses "atores secundários" não são o apresentador. Eles aparecem em camadas intermediárias da rede neural (no meio do filme).
- Eles duram um tempo variável: alguns somem rápido, outros ficam no palco por várias cenas.
- Eles geralmente são palavras "sem sentido" (como espaços em branco, números aleatórios ou pontuação), mas a IA decide focar nelas intensamente.

2. Como esses Ímãs Secundários são criados?

O artigo explica que isso não é um acidente, mas uma "fábrica" dentro da IA.

A Fábrica de Transformação (MLP): Pense nas camadas da IA como uma linha de montagem. Existe uma máquina específica no meio da fábrica (um módulo chamado MLP) que pega pedaços de informação comuns e os "pinta" de uma cor especial.
A Direção Única: Essa máquina pega várias direções diferentes e as alinha todas para a mesma direção do "Apresentador Principal". É como se a máquina dissesse: "Ei, você, que era apenas um espaço em branco, agora você é tão importante quanto o narrador!".
A Força do Ímã: Quanto mais forte essa máquina trabalha (medido pelo tamanho do vetor de saída), mais forte é o ímã secundário e mais tempo ele dura no palco.

3. O Jogo de Equilíbrio (Compensação)

Aqui está a parte mais bonita da descoberta: é um jogo de compensação.

Conforme o filme avança, o "Apresentador Principal" (o primeiro token) começa a ficar cansado. Sua atenção diminui no meio do filme.
É exatamente nesse momento de fraqueza do apresentador que os Ímãs Secundários surgem para "segurar a barra". Eles assumem o papel de manter a estrutura da atenção estável.
É como se, quando o maestro da orquestra fica um pouco mais fraco, um segundo violinista surgisse no meio da sala para garantir que a música não pare.

4. Por que isso importa?

Modelos Maiores são Mais Organizados: Em IAs menores, esses ímãs secundários aparecem de forma bagunçada. Mas em modelos gigantes (como os de 32 bilhões de parâmetros), eles aparecem de forma muito previsível, como se a IA tivesse "aprendido" exatamente onde e quando colocar esses focos de atenção.
Raciocínio Matemático: Modelos treinados para resolver problemas de matemática ou raciocínio lógico tendem a ter esses ímãs secundários muito fortes. Isso sugere que a IA usa esses "pontos de foco extras" para organizar pensamentos complexos no meio do processo.
O Futuro: Entender isso ajuda a criar IAs mais eficientes. Se sabemos onde estão esses ímãs, podemos otimizar a memória do computador (o "KV Cache") para não gastar energia olhando para o lugar errado, ou até mesmo melhorar a qualidade das respostas.

Resumo em uma frase

Enquanto pensávamos que a IA só olhava para o começo da frase o tempo todo, descobrimos que, no meio do caminho, ela cria novos pontos de foco temporários em palavras sem importância para ajudar a manter o raciocínio estável, especialmente em modelos grandes e inteligentes.

É como se a IA tivesse aprendido a criar seus próprios marcadores de página no meio do livro para não se perder na história.

Each language version is independently generated for its own context, not a direct translation.

Título: Sobre a Existência e Comportamento de Poços de Atenção Secundários (Secondary Attention Sinks)

1. Problema e Contexto

O fenômeno dos Poços de Atenção (Attention Sinks) foi originalmente identificado por Xiao et al. (2023), onde o token Beginning-of-Sequence (BOS) recebe pesos de atenção desproporcionalmente altos, apesar de sua relevância semântica limitada. Trabalhos anteriores sugeriram que outros tokens podiam atuar como poços, mas estes exibiam propriedades análogas ao token BOS: surgiam nas mesmas camadas iniciais e persistiam por toda a rede.

O problema central abordado neste trabalho é a descoberta de uma nova classe de poços de atenção, denominados Poços Secundários (Secondary Sinks), que diferem fundamentalmente dos poços primários (BOS) em termos de:

Camada de surgimento: Não surgem nas camadas iniciais.
Duração: Não persistem por toda a rede, mas sim por um número variável de camadas intermediárias.
Mecanismo de formação: Sua origem e comportamento são distintos dos observados em poços primários.

2. Metodologia

Os autores realizaram experimentos empíricos extensivos em 11 famílias de modelos (incluindo Qwen2/2.5/3, QwQ, DeepSeek, LLaMA, Phi-4, etc.), utilizando traços de raciocínio gerados em datasets matemáticos (AIME24, Math).

A metodologia envolveu:

Identificação de Poços: Cálculo da similaridade de cosseno entre os estados ocultos de cada token e o token BOS. Tokens com similaridade > 0,95 e normas $\ell_2$ significativamente maiores foram classificados como poços.
Análise de Níveis de Poço (Sink Levels): Classificação dos poços com base em dois atributos: $(l_{start}, \text{lifetime})$ , onde $l_{start}$ é a camada de surgimento e lifetime é o número de camadas que o poço persiste.
Análise Causal:
- PCA e Hipótese Linear: Análise de componentes principais nos inputs das MLPs para identificar direções comuns.
- Clustering: Uso de t-SNE para observar a separação entre tokens "futuros poços" e tokens normais ao longo das camadas.
- Experimentos de Troca de Tokens (Token Swapping): Substituição dos estados ocultos, saídas de atenção e saídas de MLP de tokens futuros poços por médias de tokens não-informativos em camadas iniciais para verificar a supressão do efeito.
Métricas: Avaliação da pontuação do poço (sink-score) e da duração em relação à norma $\ell_2$ das saídas das MLPs.

3. Contribuições e Descobertas Chave

A. Existência e Definição de Poços Secundários
Os autores identificam que, além do poço primário (BOS), existem poços secundários que:

Surgem predominantemente em camadas intermediárias (ex: camada 22 em modelos de 40 camadas).
Persistem por um número variável de camadas (de 2 a 22 camadas), desaparecendo antes do final da rede.
Frequentemente ocorrem em tokens semanticamente não-informativos (ex: espaços, números, pontuação) em qualquer posição da sequência.

B. Mecanismo de Formação (Causalidade)

Papel das MLPs: Os poços secundários são formados por módulos MLP específicos em camadas intermediárias (denotadas como $l_{start}$ ).
Alinhamento de Direção: Esses módulos mapeiam representações de tokens (que inicialmente têm direções ortogonais) para uma direção que se alinha com o poço primário daquela camada.
Decisão Precoce: Embora o efeito visível (norma alta) apareça em $l_{start}$ , a decisão de transformar o token em poço começa a ser construída em camadas anteriores (até 3 camadas antes), onde os tokens futuros poços começam a se separar em clusters distintos dos tokens normais.

C. Relação com a Norma $\ell_2$ e Níveis de Poço

A norma $\ell_2$ da saída do MLP em $l_{start}$ determina tanto a força do poço (sink-score) quanto a duração (lifetime) do poço.
Existe uma relação log-linear entre a norma da saída do MLP e a pontuação do poço.
Modelos maiores e modelos com post-training intensivo em dados de raciocínio (ex: QwQ-32B, Qwen3-14B) exibem níveis de poço mais determinísticos e frequentes. Por exemplo, o QwQ-32B apresenta 3 níveis distintos, enquanto o Qwen3-14B apresenta 6.

D. Efeito Compensatório

O poço primário (BOS) enfraquece gradualmente nas camadas intermediárias, atingindo seu ponto mais fraco exatamente quando os poços secundários emergem. Isso sugere um mecanismo de compensação, onde os poços secundários assumem a função de estabilização da atenção quando o BOS decai.

4. Resultados Principais

Distribuição: Poços secundários foram encontrados em modelos da família Qwen (2, 2.5, 3, QwQ) e DeepSeek, mas não foram observados em LLaMA-7B-Chat ou CodeLlama, apesar de usarem bases de rotação grandes. Isso indica que a presença depende da arquitetura e do treinamento, não apenas da posição.
Evolução com a Escala: Em modelos pequenos, poços secundários são ausentes ou fracos. Eles tornam-se proeminentes após o treinamento em grandes volumes de dados matemáticos (transição de Qwen2 para Qwen2-Math).
Quantificação: A análise de 11 famílias de modelos revelou que a quantidade de níveis de poço e sua localização tornam-se mais concentrados e previsíveis à medida que o tamanho do modelo aumenta.

5. Significado e Impacto

Novo Entendimento da Arquitetura: O trabalho desafia a visão de que os poços de atenção são um fenômeno estático e uniforme (apenas o BOS). Ele revela uma dinâmica complexa e estratificada ("níveis de poço") ao longo da profundidade da rede.
Implicações para Otimização: Compreender a formação e duração dos poços secundários é crucial para técnicas de otimização como KV-cache (compressão de cache) e quantização. Ignorar poços secundários que surgem e desaparecem em camadas específicas pode levar a perdas de informação ou ineficiências em modelos de raciocínio profundo.
Direção Futura: A descoberta sugere que o treinamento de raciocínio (SFT/RL) amplifica esse fenômeno, indicando que a capacidade de raciocínio de modelos LLM pode estar intrinsecamente ligada a mecanismos de estabilização de atenção distribuídos por múltiplos níveis na rede.

Em resumo, o artigo estabelece que os poços de atenção não são apenas um artefato do token inicial, mas uma propriedade estrutural dinâmica que evolui através de camadas específicas, mediada por módulos MLP, e que desempenha um papel compensatório vital na estabilidade da atenção em modelos de linguagem modernos.

On the Existence and Behavior of Secondary Attention Sinks

1. O Ímã Principal vs. Os Ímãs Secundários

2. Como esses Ímãs Secundários são criados?

3. O Jogo de Equilíbrio (Compensação)

4. Por que isso importa?

Resumo em uma frase

Título: Sobre a Existência e Comportamento de Poços de Atenção Secundários (Secondary Attention Sinks)

1. Problema e Contexto

2. Metodologia

3. Contribuições e Descobertas Chave

4. Resultados Principais

5. Significado e Impacto

Mais como este

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

GHaLIB: A Multilingual Framework for Hope Speech Detection in Low-Resource Languages