Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

O artigo demonstra teoricamente e experimentalmente que o fenômeno de "attention sinks" é inevitável em modelos Transformers com atenção softmax devido à normalização, enquanto mecanismos de atenção não normalizados, como ReLU, conseguem resolver as mesmas tarefas sem esse comportamento.

Yuval Ran-Milo

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente (um modelo de IA chamado Transformer) a ler uma história e fazer algo muito específico: se ele encontrar uma palavra-chave mágica (um "gatilho"), ele deve resumir tudo o que leu antes; se não encontrar, ele deve ficar em silêncio absoluto.

O artigo que você enviou descobre algo fascinante e um pouco contra-intuitivo sobre como esses robôs funcionam quando usam a versão padrão de "atenção" (chamada Softmax).

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Canto de Segurança" (Attention Sink)

Você já viu como, em uma sala cheia de pessoas conversando, às vezes todos olham para a mesma pessoa, mesmo que ela não esteja dizendo nada importante? No mundo das IAs, isso acontece o tempo todo.

Os pesquisadores descobriram que, quando o modelo precisa não fazer nada (ficar em silêncio) em certas partes da frase, ele acaba "grudando" toda a sua atenção em uma única posição fixa: o primeiro token (geralmente chamado de BOS, ou "Início da Sequência").

  • A Analogia: Pense no primeiro token como um botão de "Mute" físico na mesa. Quando o robô precisa ficar calmo e não processar nada, ele aperta esse botão com força total. Isso é o "Sink" (o sumidouro). A atenção da IA vai para lá e fica lá, ignorando tudo o mais.

2. A Grande Descoberta: Não é um Erro, é uma Necessidade

Muitas pessoas achavam que esse comportamento era um defeito de treinamento ou algo que poderia ser consertado mudando os dados.

O que este artigo prova:
Para os modelos que usam a regra padrão (Softmax), esse "botão de mute" é matematicamente obrigatório.

  • A Analogia: Imagine que a atenção da IA é como água em uma banheira. A regra do Softmax diz que a água deve sempre somar 100% (não pode criar água nova nem sumir).
    • Se o robô precisa dizer "Zero" (nada) para 99% das palavras, ele precisa colocar 100% da água em algum lugar para não "vazar" ou criar um erro.
    • Como ele não pode colocar água em todas as palavras (pois isso faria ele "falar" com elas), ele é forçado a despejar toda a água em um único lugar seguro: o primeiro token.
    • Conclusão: O "Sink" não é um bug; é a única maneira matemática de o robô dizer "silêncio" usando essa regra específica.

3. A Prova: Softmax vs. ReLU

Os pesquisadores fizeram um experimento genial para provar isso. Eles trocaram a regra do "Softmax" (que obriga a água a somar 100%) por uma regra chamada ReLU (que permite que a água seja zero se não houver motivo).

  • O Resultado:
    • Com Softmax (Regra Padrão): O robô continua usando o "botão de mute" (o Sink) no primeiro token. Ele precisa disso para funcionar.
    • Com ReLU (Regra Alternativa): O robô consegue fazer a mesma tarefa (resumir se houver gatilho, ficar em silêncio se não houver) sem precisar de um "botão de mute". Ele simplesmente não presta atenção em ninguém quando precisa ficar em silêncio.

Isso prova que o problema não é a tarefa difícil, nem o treinamento ruim. O problema é a regra matemática (o Softmax) que força a IA a ter um "canto de segurança".

4. Por que isso importa? (O Impacto no Mundo Real)

Se você é um desenvolvedor tentando criar IAs mais rápidas ou que entendam textos gigantes, isso é crucial:

  • O Dilema: Se você tentar "consertar" o modelo apenas punindo o uso do primeiro token (tentando forçar a IA a olhar para outras coisas), você pode quebrar a lógica do modelo. Você estaria tentando impedir o robô de usar o botão de "Mute", o que faria ele começar a "falar" coisas aleatórias quando deveria estar calado.
  • A Solução Real: Se queremos IAs sem esse "canto de segurança" (o que ajuda a economizar memória e evitar erros), não adianta apenas treinar melhor. Precisamos mudar a arquitetura (a regra matemática) para algo como o ReLU ou outras formas de atenção que não obriguem a soma a ser sempre 100%.

Resumo em uma frase

O artigo prova que, para os modelos de IA atuais, o hábito de olhar fixamente para o primeiro token quando precisam "não fazer nada" não é um defeito, mas uma necessidade matemática imposta pela forma como eles calculam a atenção; para eliminar esse hábito, precisamos mudar as regras do jogo, não apenas o treinamento.