Identifying and Evaluating Inactive Heads in Pretrained LLMs

Este artigo identifica e avalia cabeças de atenção inativas em modelos de linguagem grandes, demonstrando que mais de 12% dessas cabeças podem ser removidas sem prejudicar significativamente o desempenho e que métricas baseadas apenas nos pesos de atenção subestimam essa inatividade, exigindo a análise da norma de saída para uma detecção precisa.

Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda, Micah Goldblum, Ronen Basri, Tom Goldstein, David Jacobs

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que um Grande Modelo de Linguagem (LLM), como o que você está usando agora, é como uma orquestra gigante composta por centenas de músicos (os "cabeças" de atenção). Cada músico tem uma tarefa específica: alguns ouvem o violino, outros o trompete, e alguns focam no ritmo. A ideia é que, juntos, eles criam uma música perfeita (a resposta inteligente da IA).

No entanto, os pesquisadores deste artigo descobriram algo curioso: muitos desses músicos estão apenas "tocando no ar" ou dormindo durante a apresentação. Eles estão lá, ocupando espaço na orquestra, mas não estão realmente contribuindo para a música.

Aqui está a explicação simples do que eles fizeram, usando analogias do dia a dia:

1. O Problema: Os "Músicos Fantasmas"

Antes, os cientistas achavam que sabiam quem eram esses músicos inativos. Eles olhavam apenas para quem o músico estava olhando.

  • A velha teoria: "Se um músico olha fixamente para o primeiro token (a primeira nota da música) e ignora tudo o resto, ele é um 'músico dorminhoco'." Isso é chamado de "sumidouro de atenção" (attention sink).
  • O problema: Eles estavam olhando apenas para o olhar do músico, e não para o som que ele produzia.

2. A Descoberta: Olhe para o Resultado, não para a Intenção

Os autores do artigo disseram: "Espera aí! Um músico pode estar olhando para o primeiro token, mas se ele não estiver tocando nada (se a saída for zero), ele é inútil. Mas também pode ser que um músico esteja olhando para várias notas diferentes, mas ainda assim não esteja tocando nada de útil."

Eles criaram 12 novas formas de medir se um músico está realmente trabalhando. Em vez de só olhar para onde o músico aponta o dedo (pesos de atenção), eles olharam para:

  1. O que ele toca (Saída do Cabeça): O som que sai dele é alto ou é um sussurro quase inaudível?
  2. A energia dele (Vetores de Valor): A "ferramenta" que ele usa para tocar está fraca ou quebrada?

3. O Experimento: O Teste do Silêncio

Para provar quem realmente importa, eles fizeram um teste radical: Eles silenciaram os músicos que achavam que estavam dormindo.

  • O que aconteceu? Eles desligaram (zeraram) mais de 12% dos músicos da orquestra.
  • O resultado: A música (a inteligência do modelo) continuou soando quase perfeitamente! A precisão caiu menos de 1%.
  • A lição: A orquestra tinha muitos músicos sobressalentes que não estavam fazendo nada. Se você os remove, a música continua a mesma, mas a orquestra fica menor e mais eficiente.

4. A Grande Surpresa: A Velha Regra Estava Errada

O método antigo (olhar apenas para quem olha o primeiro token) era como tentar achar músicos inúteis apenas olhando para quem está olhando o maestro.

  • O artigo mostra que esse método antigo era muito ingênuo. Ele deixava passar mais de 7% dos músicos inúteis que deveriam ter sido removidos.
  • A melhor maneira de achar os "dorminhocos" foi olhar para o volume do som que eles produzem (a norma da saída do cabeça). Se o som é baixo demais, desligue-o!

5. Outras Descobertas Interessantes

  • Treinamento não muda muito: Quando você "afina" (fine-tune) um modelo para ser mais educado ou seguir instruções, os músicos não mudam de lugar. Os mesmos que estavam "dormindo" antes, continuam "dormindo" depois.
  • Tamanho importa (mas só quando é gigante): Modelos pequenos e médios se comportam de forma muito parecida. Só quando o modelo fica enorme (como o de 14 bilhões de parâmetros) que os músicos começam a mudar seus hábitos e se especializar de formas diferentes.

Resumo em uma Frase

Este artigo nos ensina que, em vez de julgar os "músicos" da IA pelo que eles olham, devemos julgar pelo que eles realmente produzem. Ao fazer isso, descobrimos que uma parte significativa da orquestra está apenas ocupando espaço, e podemos removê-la sem estragar a música, tornando a IA mais rápida e eficiente.

Em suma: A IA tem "músicos fantasmas" que não tocam nada. O artigo ensina como encontrá-los e silenciá-los para economizar energia sem perder a qualidade da resposta.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →