On the Existence and Behavior of Secondary Attention Sinks

Este trabalho identifica e analisa uma nova classe de "sumidouros de atenção" (secondary sinks) que surgem em camadas intermediárias de modelos de linguagem, sendo formados por módulos MLP específicos que alinham representações token a direções de sumidouros primários, com sua duração e impacto determinados pela norma L2 desses vetores, fenômeno que se torna mais frequente e determinístico em modelos de maior escala.

Jeffrey T. H. Wong, Cheng Zhang, Louis Mahon, Wayne Luk, Anton Isopoussu, Yiren Zhao

Publicado 2026-03-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme muito longo e complexo, onde os personagens (as palavras) estão conversando entre si. Em uma sala de cinema cheia, geralmente há um "foco" natural: a tela principal ou o narrador no início da história. Todos os olhos tendem a voltar para eles, mesmo que eles não digam nada de novo naquele momento.

No mundo das Inteligências Artificiais (IA), isso é chamado de "Sink de Atenção" (ou "Ponto de Foco"). A pesquisa anterior descobria que o primeiro token (a primeira palavra, como o "Início da Sequência") sempre recebia uma atenção exagerada, como se fosse um ímã que puxava todos os olhares.

Mas este novo artigo, aceito no ICLR 2026, descobriu algo fascinante: existem outros ímãs escondidos no meio da sala.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Ímã Principal vs. Os Ímãs Secundários

  • O Ímã Principal (Primary Sink): É como o apresentador de um show. Ele está no palco desde o início (o primeiro token) e o público (a atenção da IA) continua olhando para ele do começo ao fim do show. Ele nunca perde a atenção.
  • Os Ímãs Secundários (Secondary Sinks): A descoberta do artigo é que, no meio do show, surgem outros "focos" inesperados. Imagine que, no meio de uma peça de teatro, um ator que estava apenas segurando um objeto sem importância de repente começa a brilhar e atrair todos os olhares.
    • Esses "atores secundários" não são o apresentador. Eles aparecem em camadas intermediárias da rede neural (no meio do filme).
    • Eles duram um tempo variável: alguns somem rápido, outros ficam no palco por várias cenas.
    • Eles geralmente são palavras "sem sentido" (como espaços em branco, números aleatórios ou pontuação), mas a IA decide focar nelas intensamente.

2. Como esses Ímãs Secundários são criados?

O artigo explica que isso não é um acidente, mas uma "fábrica" dentro da IA.

  • A Fábrica de Transformação (MLP): Pense nas camadas da IA como uma linha de montagem. Existe uma máquina específica no meio da fábrica (um módulo chamado MLP) que pega pedaços de informação comuns e os "pinta" de uma cor especial.
  • A Direção Única: Essa máquina pega várias direções diferentes e as alinha todas para a mesma direção do "Apresentador Principal". É como se a máquina dissesse: "Ei, você, que era apenas um espaço em branco, agora você é tão importante quanto o narrador!".
  • A Força do Ímã: Quanto mais forte essa máquina trabalha (medido pelo tamanho do vetor de saída), mais forte é o ímã secundário e mais tempo ele dura no palco.

3. O Jogo de Equilíbrio (Compensação)

Aqui está a parte mais bonita da descoberta: é um jogo de compensação.

  • Conforme o filme avança, o "Apresentador Principal" (o primeiro token) começa a ficar cansado. Sua atenção diminui no meio do filme.
  • É exatamente nesse momento de fraqueza do apresentador que os Ímãs Secundários surgem para "segurar a barra". Eles assumem o papel de manter a estrutura da atenção estável.
  • É como se, quando o maestro da orquestra fica um pouco mais fraco, um segundo violinista surgisse no meio da sala para garantir que a música não pare.

4. Por que isso importa?

  • Modelos Maiores são Mais Organizados: Em IAs menores, esses ímãs secundários aparecem de forma bagunçada. Mas em modelos gigantes (como os de 32 bilhões de parâmetros), eles aparecem de forma muito previsível, como se a IA tivesse "aprendido" exatamente onde e quando colocar esses focos de atenção.
  • Raciocínio Matemático: Modelos treinados para resolver problemas de matemática ou raciocínio lógico tendem a ter esses ímãs secundários muito fortes. Isso sugere que a IA usa esses "pontos de foco extras" para organizar pensamentos complexos no meio do processo.
  • O Futuro: Entender isso ajuda a criar IAs mais eficientes. Se sabemos onde estão esses ímãs, podemos otimizar a memória do computador (o "KV Cache") para não gastar energia olhando para o lugar errado, ou até mesmo melhorar a qualidade das respostas.

Resumo em uma frase

Enquanto pensávamos que a IA só olhava para o começo da frase o tempo todo, descobrimos que, no meio do caminho, ela cria novos pontos de foco temporários em palavras sem importância para ajudar a manter o raciocínio estável, especialmente em modelos grandes e inteligentes.

É como se a IA tivesse aprendido a criar seus próprios marcadores de página no meio do livro para não se perder na história.