Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Each language version is independently generated for its own context, not a direct translation.

Imagine que você construiu uma fábrica de carros extremamente sofisticada. Em cada estação de montagem, você tem uma equipe de engenheiros (os MLPs, ou Perceptrons Multicamada) trabalhando incansavelmente para transformar a peça que chega em algo melhor. A regra de ouro da indústria sempre foi: "Esses engenheiros precisam de criatividade e pensamento complexo (não-linearidade) em cada passo, senão o carro não funciona."

O artigo "Metade da Não-Linearidade é Desperdiçada" diz, basicamente: "Ei, parem de gastar dinheiro com criatividade onde ela não é necessária. Metade do tempo, esses engenheiros poderiam ser substituídos por uma calculadora simples (uma matriz linear) e o carro sairia igual, ou até melhor."

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Desperdício de Energia

Nos modelos de IA atuais (como o GPT-2), em cada camada de processamento, o sistema faz cálculos super complexos para cada palavra que lê. O artigo descobriu que, na maioria das vezes, esses cálculos complexos são desnecessários.

A Analogia: Imagine que você está dirigindo em uma estrada reta e plana. O manual do carro diz que você precisa usar o modo "Esporte" (alta potência, complexidade) o tempo todo. Mas o artigo mostra que, na verdade, você poderia usar o modo "Eco" (simples, linear) em 70% da estrada e o carro chegaria ao mesmo lugar, gastando menos combustível (computação).

2. A Solução: O "Porteiro" Inteligente

Os autores criaram um pequeno "porteiro" (um gate). Antes de enviar a palavra para a equipe de engenheiros complexos, o porteiro decide:

"Essa palavra precisa de uma solução criativa e complexa?" -> Vai para a equipe completa.
"Essa palavra é simples e pode ser resolvida com uma fórmula básica?" -> Vai para a calculadora simples.

O resultado: Em modelos como o GPT-2, esse porteiro consegue enviar entre 25% a 56% das palavras para a "calculadora simples" sem estragar a qualidade do texto gerado. Em algumas camadas, usar a calculadora simples até melhora o resultado!

3. A Grande Surpresa: Não é sobre a Palavra, é sobre o Contexto

Aqui está a parte mais interessante e contra-intuitiva.

A Hipótese Errada: Os pesquisadores acharam que o porteiro aprendia a identificar palavras específicas. Tipo: "Palavras como 'o', 'a', 'de' são simples e podem usar a calculadora. Palavras como 'elefante', 'correr' são complexas e precisam dos engenheiros."
A Realidade: Isso é falso. Se você pegar a palavra "banco" e testar em dois textos diferentes, às vezes ela precisa de complexidade (quando é um banco de sentar) e às vezes não (quando é um banco de dados).
A Analogia: Pense em um guarda de trânsito. Ele não decide se um carro é perigoso baseado na marca do carro (se é um Ferrari ou um Fiat). Ele decide baseado no comportamento do carro naquele momento (se está dirigindo rápido, se está bêbado, se a estrada está molhada).
- O porteiro da IA não olha para a "identidade" da palavra. Ele olha para o contexto (o que as palavras anteriores disseram).
- Tentar criar uma lista fixa de "palavras proibidas para a calculadora" não funciona. A lista muda dependendo do texto.

4. Arquitetura Importa: O Estilo de Construção

O artigo mostra que nem todas as fábricas são iguais.

Fábrica A (GPT-2): É muito eficiente. A maioria das estações de trabalho é quase linear. Você pode simplificar metade delas e a fábrica funciona perfeitamente.
Fábrica B (Pythia): É um pouco mais teimosa. Ela precisa de mais complexidade. No entanto, mesmo nela, as estações do meio da linha de produção são mais simples do que as do início e do fim.

A Lição: O jeito como a fábrica foi construída (sequencial vs. paralela) define quanto "pensamento complexo" ela realmente precisa.

5. O Experimento Maluco: Cortar a Gordura

Os autores fizeram um teste radical: pegaram um modelo treinado, tiraram a "complexidade" de 5 camadas do meio (substituindo por matrizes congeladas) e deixaram o resto se ajustar um pouco.

O Resultado: O modelo ficou melhor do que o original!
Por que? Porque as camadas do meio estavam, na verdade, "estragando" as coisas com complexidade desnecessária (sobreajuste). Ao simplificar, eles agiram como um podador de jardim: cortaram o excesso para que a planta crescesse mais saudável.

Resumo Final em Metáfora

Imagine que você está escrevendo um livro.

O jeito antigo: Você usa um dicionário de sinônimos super complexo e uma gramática de PhD para cada palavra que escreve, mesmo para artigos como "o" ou "um". Isso gasta muita energia mental.
O jeito novo (proposto pelo artigo): Você tem um assistente que diz: "Para 'o' e 'um', use a gramática básica. Só use o dicionário de PhD quando a frase estiver realmente complicada."
O segredo: O assistente não sabe quais palavras são "o" ou "um" por natureza. Ele sabe que, nessa frase específica, a palavra "banco" é simples, mas na outra frase, é complexa.

Conclusão: A Inteligência Artificial atual gasta muita energia tentando ser "criativa" em momentos onde apenas "lógica simples" bastaria. Se os futuros modelos forem construídos sabendo disso (colocando a complexidade apenas onde é realmente necessária, nas bordas do processo), eles serão mais rápidos, mais baratos e, ironicamente, mais inteligentes.

Each language version is independently generated for its own context, not a direct translation.

Título: Metade da Não-Linearidade é Desperdiçada: Medindo e Realocando o Orçamento MLP do Transformer

Autor: Peter Balogh
Área: Aprendizado de Máquina (ML), Modelos de Linguagem (LLMs), Eficiência Computacional.

1. O Problema

Os Transformers modernos dependem fortemente de Camadas Perceptron Multicamada (MLP) com funções de ativação não-lineares (como GELU) em cada camada e para cada token. A suposição universal no design de arquitetura é que essa não-linearidade é essencial para que a rede aprenda funções complexas necessárias à linguagem.

O artigo questiona diretamente essa premissa: quanto da capacidade computacional não-linear dos MLPs é realmente necessária? O autor propõe que uma fração substancial desses cálculos pode ser substituída por matrizes lineares pré-computadas com custo negligenciável, sugerindo que o "orçamento" de não-linearidade está mal alocado.

2. Metodologia

O estudo foi conduzido de forma sistemática através de seis modelos (162M a 2.8B parâmetros), duas famílias de arquiteturas (GPT-2 e Pythia/GPT-NeoX) e três corpora (WikiText-103, LAMBADA).

Aproximação Linear e Gate Adaptativo

Aproximação Linear: Para cada camada, os autores ajustaram um substituto linear (via regressão de ridge) para aproximar o MLP completo. Mediram o custo em perplexity (PPL) ao substituir o MLP inteiro por essa matriz linear.
Gate Adaptativo (Roteamento): Em vez de substituir todo o MLP, treinaram um "gate" (classificador logístico simples com $d+1$ $d + 1$ parâmetros) que decide, para cada ativação, se deve usar o MLP completo ou a aproximação linear.
- O gate recebe a ativação residual e decide se o custo de ir para a linha ( $\delta = L_{lin} - L_{full}$ ) é aceitável.
Análise de Causa: Investigaram se a necessidade de não-linearidade é uma propriedade do token (identidade da palavra) ou do contexto (contribuição das camadas anteriores e atenção).
- Decomposição da entrada em componente de token ( $e_i$ ) e componente contextual ( $c_i$ ).
- Testes de estabilidade cross-corpus (treinar em um corpus, testar em outro).
Linearização Progressiva: Substituíram camadas centrais por matrizes lineares congeladas e realizaram fine-tuning nas camadas restantes para ver se o modelo se adaptava e melhorava.

3. Contribuições Principais

Quantificação da Linearidade: Primeira medição sistemática mostrando que a maioria das camadas médias em modelos como GPT-2 opera quase linearmente.
Gate Minimalista: Demonstração de que um classificador linear simples ( $d+1$ parâmetros) é suficiente para rotear uma grande fração de ativações para o caminho linear com custo quase zero.
Resultado Negativo Forte sobre Tokens: Evidência robusta de que a necessidade de não-linearidade não pode ser prevista pela identidade do token. Listas de roteamento baseadas em tokens não generalizam entre corpora (correlação $r < 0.05$ ).
Dominância do Contexto: A decisão de roteamento é puramente contextual. O gate aprende a detectar o papel do token no contexto sintático e semântico, não o token em si.
Regularização por Linearização: Em várias camadas, a aproximação linear melhora a perplexidade, indicando que os MLPs completos estão causando overfitting (aprendendo padrões espúrios) nessas camadas.
Dependência Arquitetural: A linearizabilidade varia drasticamente entre arquiteturas (GPT-2 é altamente linearizável; Pythia tem custos maiores, mas melhora com escala).

4. Resultados Chave

Custo de Substituição Total (All-Linear)

GPT-2 Medium: 70% das camadas podem ser totalmente linearizadas com custo de perplexidade < 3%. As camadas 2 a 15 são particularmente baratas de linearizar.
GPT-2 Large: 11 de 36 camadas superam a linha de base (melhoram a perplexidade) quando linearizadas. Nenhuma camada excede 3.7% de custo.
Pythia: Mostra custos mais altos, especialmente na Camada 0 (catastrófico em Pythia-2.8B, +513% de PPL). No entanto, em escala (2.8B), as camadas médias (L7-L15) tornam-se baratas de linearizar.

Eficácia do Gate Adaptativo

O gate consegue rotear 25–56% das computações para o caminho linear com custo de perplexidade < 1%.
Em 4 das 23 camadas do GPT-2 Medium, o roteamento gateado melhora a perplexidade em relação à base, provando que a não-linearidade nessas camadas era prejudicial.
O gate funciona porque a distribuição de "necessidade de não-linearidade" é altamente enviesada: a maioria dos tokens já é quase linear; o gate apenas identifica a cauda fina onde a não-linearidade é crítica.

Falha do Roteamento Baseado em Tokens

A correlação entre a decisão do gate e a identidade do token (ex: palavras funcionais vs. conteúdo) desaparece ao testar em novos dados.
Tokens classificados como "necessitam de não-linearidade" em um corpus podem ter $\delta < 0$ (melhoram com linearização) em outro.
Conclusão: Não existem listas de "No-Fly" (tokens que nunca podem ser linearizados) universais.

Prova de Conceito: Linearização Progressiva

Ao substituir 5 camadas centrais (L10-L14) por matrizes lineares congeladas e fazer fine-tuning mínimo, o modelo atingiu a mesma perplexidade da base.
Com um orçamento de fine-tuning maior (117.9M tokens), a linearização de 4 camadas resultou em uma melhoria de 10.2% na perplexidade.
Uma abordagem de duas fases (linearização + gate aprendido) atingiu 17.3% de melhoria (PPL 19.00), superando um controle de fine-tuning padrão.

5. Significado e Implicações

Para Arquiteturas Futuras

O artigo sugere que as arquiteturas atuais são ineficientes ao alocar capacidade não-linear uniformemente.

MLPs de Capacidade Variável: Camadas de entrada e saída devem ter MLPs grandes e não-lineares. Camadas centrais podem ser menores, lineares ou híbridas.
Roteamento Aprendido: Em vez de roteamento baseado em tokens (lookup tables), o roteamento deve ser baseado no contexto e aprendido durante o pré-treinamento.
Arquiteturas Híbridas: Combinar projeções lineares de rank completo com pequenos MLPs não-lineares para lidar apenas com a "cauda" de casos difíceis.

Para Eficiência Computacional

É possível economizar ~21% dos FLOPs totais de inferência em modelos GPT-2 sem perda de desempenho, apenas ativando gateamentos simples.
O roteamento baseado em token (pré-computado) é um beco sem saída; qualquer sistema que tente otimizar inferência com base apenas na palavra-chave falhará em generalização.

Insight Teórico

A não-linearidade nos Transformers não é uma propriedade intrínseca do token, mas sim uma ferramenta para processamento dependente do contexto. A descoberta de que remover não-linearidade em certas camadas melhora o modelo sugere que os MLPs atuais sofrem de overfitting estrutural em camadas médias, e que a arquitetura atual desperdiça capacidade computacional.

Conclusão

O trabalho desafia o dogma de que "mais não-linearidade é sempre melhor". Demonstra que a maior parte da computação não-linear em Transformers é desperdiçada e que, ao realocar esse orçamento (substituindo camadas centrais por linearidade ou usando gateamento contextual), é possível criar modelos mais eficientes e, em alguns casos, mais precisos. A chave para a próxima geração de modelos não está apenas em aumentar o tamanho, mas em adaptar a arquitetura à distribuição real de necessidade de não-linearidade.