Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

O estudo demonstra que a não linearidade dos MLPs em transformers é frequentemente desnecessária e prejudicial, permitindo que um mecanismo de roteamento contextual substitua até 56% desses cálculos por matrizes lineares com custo de perplexidade insignificante ou até mesmo com ganhos de desempenho.

Peter Balogh

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você construiu uma fábrica de carros extremamente sofisticada. Em cada estação de montagem, você tem uma equipe de engenheiros (os MLPs, ou Perceptrons Multicamada) trabalhando incansavelmente para transformar a peça que chega em algo melhor. A regra de ouro da indústria sempre foi: "Esses engenheiros precisam de criatividade e pensamento complexo (não-linearidade) em cada passo, senão o carro não funciona."

O artigo "Metade da Não-Linearidade é Desperdiçada" diz, basicamente: "Ei, parem de gastar dinheiro com criatividade onde ela não é necessária. Metade do tempo, esses engenheiros poderiam ser substituídos por uma calculadora simples (uma matriz linear) e o carro sairia igual, ou até melhor."

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Desperdício de Energia

Nos modelos de IA atuais (como o GPT-2), em cada camada de processamento, o sistema faz cálculos super complexos para cada palavra que lê. O artigo descobriu que, na maioria das vezes, esses cálculos complexos são desnecessários.

  • A Analogia: Imagine que você está dirigindo em uma estrada reta e plana. O manual do carro diz que você precisa usar o modo "Esporte" (alta potência, complexidade) o tempo todo. Mas o artigo mostra que, na verdade, você poderia usar o modo "Eco" (simples, linear) em 70% da estrada e o carro chegaria ao mesmo lugar, gastando menos combustível (computação).

2. A Solução: O "Porteiro" Inteligente

Os autores criaram um pequeno "porteiro" (um gate). Antes de enviar a palavra para a equipe de engenheiros complexos, o porteiro decide:

  • "Essa palavra precisa de uma solução criativa e complexa?" -> Vai para a equipe completa.
  • "Essa palavra é simples e pode ser resolvida com uma fórmula básica?" -> Vai para a calculadora simples.

O resultado: Em modelos como o GPT-2, esse porteiro consegue enviar entre 25% a 56% das palavras para a "calculadora simples" sem estragar a qualidade do texto gerado. Em algumas camadas, usar a calculadora simples até melhora o resultado!

3. A Grande Surpresa: Não é sobre a Palavra, é sobre o Contexto

Aqui está a parte mais interessante e contra-intuitiva.

  • A Hipótese Errada: Os pesquisadores acharam que o porteiro aprendia a identificar palavras específicas. Tipo: "Palavras como 'o', 'a', 'de' são simples e podem usar a calculadora. Palavras como 'elefante', 'correr' são complexas e precisam dos engenheiros."
  • A Realidade: Isso é falso. Se você pegar a palavra "banco" e testar em dois textos diferentes, às vezes ela precisa de complexidade (quando é um banco de sentar) e às vezes não (quando é um banco de dados).
  • A Analogia: Pense em um guarda de trânsito. Ele não decide se um carro é perigoso baseado na marca do carro (se é um Ferrari ou um Fiat). Ele decide baseado no comportamento do carro naquele momento (se está dirigindo rápido, se está bêbado, se a estrada está molhada).
    • O porteiro da IA não olha para a "identidade" da palavra. Ele olha para o contexto (o que as palavras anteriores disseram).
    • Tentar criar uma lista fixa de "palavras proibidas para a calculadora" não funciona. A lista muda dependendo do texto.

4. Arquitetura Importa: O Estilo de Construção

O artigo mostra que nem todas as fábricas são iguais.

  • Fábrica A (GPT-2): É muito eficiente. A maioria das estações de trabalho é quase linear. Você pode simplificar metade delas e a fábrica funciona perfeitamente.
  • Fábrica B (Pythia): É um pouco mais teimosa. Ela precisa de mais complexidade. No entanto, mesmo nela, as estações do meio da linha de produção são mais simples do que as do início e do fim.

A Lição: O jeito como a fábrica foi construída (sequencial vs. paralela) define quanto "pensamento complexo" ela realmente precisa.

5. O Experimento Maluco: Cortar a Gordura

Os autores fizeram um teste radical: pegaram um modelo treinado, tiraram a "complexidade" de 5 camadas do meio (substituindo por matrizes congeladas) e deixaram o resto se ajustar um pouco.

  • O Resultado: O modelo ficou melhor do que o original!
  • Por que? Porque as camadas do meio estavam, na verdade, "estragando" as coisas com complexidade desnecessária (sobreajuste). Ao simplificar, eles agiram como um podador de jardim: cortaram o excesso para que a planta crescesse mais saudável.

Resumo Final em Metáfora

Imagine que você está escrevendo um livro.

  • O jeito antigo: Você usa um dicionário de sinônimos super complexo e uma gramática de PhD para cada palavra que escreve, mesmo para artigos como "o" ou "um". Isso gasta muita energia mental.
  • O jeito novo (proposto pelo artigo): Você tem um assistente que diz: "Para 'o' e 'um', use a gramática básica. Só use o dicionário de PhD quando a frase estiver realmente complicada."
  • O segredo: O assistente não sabe quais palavras são "o" ou "um" por natureza. Ele sabe que, nessa frase específica, a palavra "banco" é simples, mas na outra frase, é complexa.

Conclusão: A Inteligência Artificial atual gasta muita energia tentando ser "criativa" em momentos onde apenas "lógica simples" bastaria. Se os futuros modelos forem construídos sabendo disso (colocando a complexidade apenas onde é realmente necessária, nas bordas do processo), eles serão mais rápidos, mais baratos e, ironicamente, mais inteligentes.