The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha (o modelo de IA) que prepara milhões de pratos (respostas de texto) todos os dias. A pergunta que os cientistas faziam era: "Será que esse chef está cozininhando cada prato do zero, ajustando os temperos com uma precisão matemática infinita e suave?"

A resposta deste novo estudo é: Não.

O estudo revela que, na verdade, o chef está usando um sistema de interruptores. Ele decide rapidamente se o prato precisa de "cozinha de luxo" (processamento complexo) ou se pode ser feito de forma simples e rápida (processamento linear).

Aqui está a explicação simplificada do que os pesquisadores descobriram no modelo GPT-2 Small:

1. O Grande Mal-Entendido: A Curva Suave vs. O Interruptor

Antes, os cientistas achavam que a parte "inteligente" do cérebro da IA (chamada de MLP) funcionava como um pintor de paisagens. Eles imaginavam que, para cada palavra, a IA desenhava uma curva suave e complexa para decidir o que fazer.

O estudo diz: "Esqueça a pintura suave. É mais como um semáforo."

A ideia antiga: A IA calcula uma média suave entre "fazer isso" e "fazer aquilo".
A descoberta: A IA toma uma decisão binária (sim/não). "Preciso cozinhar isso com cuidado?" (Ligar o interruptor) ou "Posso apenas passar direto?" (Desligar o interruptor).

2. A Analogia do "Comitê de Votação"

Para entender como isso funciona, imagine que a IA tem uma equipe de 7 especialistas (neurônios) e 1 supervisor (um neurônio especial chamado N2123).

O Cenário Comum (90% das vezes):
A IA lê uma palavra simples, como "o" ou "e". Os 7 especialistas olham e dizem: "Isso é fácil, não precisa de ajuda." Eles todos concordam. O supervisor vê essa unanimidade e diz: "Ok, pessoal, podem relaxar. Vamos apenas passar a informação direto, sem gastar energia."
- Resultado: A IA processa a palavra de forma rápida e simples.
O Cenário de Emergência (10% das vezes):
A IA lê uma palavra ambígua, como "banco" (pode ser lugar para sentar ou instituição financeira). Os 7 especialistas começam a brigar ou ficam confusos. Eles não concordam.
O supervisor (N2123) percebe que o comitê falhou. Ele levanta a mão e grita: "ALERTA! Precisamos da cozinha completa! Vamos ativar todos os neurônios para resolver essa ambiguidade!"
- Resultado: A IA ativa todo o seu poder de processamento para entender o contexto.

3. A Descoberta do "Supervisor" (N2123)

Os pesquisadores encontraram um "neurônio guarda-chuva" na camada 11 do modelo.

Quando os 7 especialistas estão de acordo, esse supervisor fica silencioso.
Quando os especialistas discordam, esse supervisor acende como um farol.
É como se ele fosse um detector de confusão. Ele não sabe a resposta, mas sabe exatamente quando a equipe precisa de ajuda extra.

4. Por que isso é importante? (A Prova Real)

Para provar que isso não é apenas uma coincidência, os pesquisadores fizeram um teste cirúrgico:

Eles removeram a parte "inteligente" da IA (o MLP) apenas quando o supervisor estava silencioso (quando todos concordavam).
- Resultado: A IA quase não mudou. Ela continuou funcionando bem.
Eles removeram a parte "inteligente" quando o supervisor estava ligado (quando havia confusão).
- Resultado: A IA desabou. O erro aumentou em 4 vezes.

Isso prova que a parte "complexa" da IA só é usada quando realmente necessária. Na maioria das vezes, ela está apenas "dormindo" ou fazendo o básico.

5. O Desenvolvimento da IA (A Jornada)

O estudo também mostrou como essa inteligência surge à medida que a IA "cresce" (passando pelas camadas 1 a 12):

Camadas Iniciais (Bebê): A IA usa um único "porteiro" para decidir se precisa de ajuda. É simples.
Camadas do Meio (Adolescente): Tudo fica confuso. Não há regras claras, é um processamento espalhado.
Camadas Finais (Adulto): A IA amadurece e cria o sistema de comitê perfeito. Ela desenvolve um grupo de especialistas e um supervisor que sabem exatamente quando ligar o modo "turbo".

Resumo em uma frase

A IA não está tentando calcular uma equação matemática perfeita e suave para cada palavra; ela está usando um sistema de interruptores inteligentes para decidir quando economizar energia (passar direto) e quando gastar energia extra (resolver problemas difíceis), funcionando como um comitê que vota para saber se precisa de um especialista.

Isso muda a forma como entendemos a inteligência artificial: ela não é apenas um "aproximador de curvas", mas um gerente de recursos que decide quando ligar e desligar sua própria inteligência.

Each language version is independently generated for its own context, not a direct translation.

Título: O Encanto Discreto do MLP: Roteamento Binário de Sinais Contínuos nas Camadas Feed-Forward de Transformers

Autor: Peter Balogh
Modelo Analisado: GPT-2 Small (124M parâmetros, 12 camadas, 3072 neurônios MLP por camada).
Dataset: WikiText-103.

1. O Problema e a Premissa

A visão padrão sobre as camadas MLP (Multi-Layer Perceptron) em modelos Transformer é que elas atuam como aproximadores de funções contínuas. Sob essa ótica, o MLP recebe um vetor de entrada (residual stream) e deve produzir uma saída, aproximando uma função suave que mapeia entradas para saídas ao longo da variedade de dados. A teoria de aproximação universal e a caracterização de splines (Balestriero & Baraniuk, 2018) sugerem que o espaço de entrada é particionado em politopos, onde cada região possui uma função afim.

A questão central do artigo: A estrutura de "partição" do MLP reflete uma variação suave (aproximação polinomial de alta resolução) ou decisões discretas (roteamento binário para caminhos computacionais qualitativamente diferentes)?

O autor propõe que, embora os sinais sejam contínuos, a decisão de roteamento (quais tokens precisam de processamento não linear) é fundamentalmente binária, funcionando como um sistema de comutação inspirado na lógica de relés de Shannon, onde a lógica de roteamento é discreta, mas o sinal transportado permanece contínuo.

2. Metodologia

O estudo emprega uma abordagem combinada de análise polinomial, detecção de "ramos" (branches) e extração de características binárias:

Probing Polinomial:
- Coleta de pares de entrada-saída para cada token.
- Isolamento do componente puramente não linear ( $\delta$ ) subtraindo a melhor aproximação linear.
- Ajuste de regressão Ridge com características polinomiais (graus 2 a 7) para prever $\delta$ .
- Objetivo: Verificar se a não linearidade pode ser capturada por funções suaves.
Detecção de Ramos (Branch Detection):
- Teste da hipótese de que a não linearidade é uma mistura de subpopulações suaves.
- Agrupamento (Clustering) de tokens com alta não linearidade ( $\|\delta\|$ alto) usando KMeans, agrupamento espectral e UMAP.
- Ajuste de polinômios separados para cada cluster para ver se a estrutura suave emerge localmente.
Extração de Características Binárias:
- Classificação de tokens em regimes: Linear (25% inferior), Levemente não linear e Altamente não linear (top 5%).
- Identificação de neurônios com maiores mudanças nas taxas de disparo entre regimes.
- Binarização das ativações (acima de um limiar, ex: 0.1) para analisar padrões lógicos e exclusividade mútua.
Validação Causal (Ablação):
- Remoção da saída do MLP para tokens em diferentes níveis de consenso (baseado na ativação de neurônios específicos) e medição do impacto na perplexidade (PPL).

3. Principais Resultados

A. Falha Catastrófica da Aproximação Polinomial

Resultados: Ajustes polinomiais (graus 2–7) capturam no máximo $R^2 = 0.06$ para a Camada 9 e $R^2 = 0.26$ para a Camada 11.
Conclusão: A não linearidade não é uma mistura de funções suaves. Mesmo permitindo múltiplos subgrupos (clusters), nenhum método encontrou subconjuntos de tokens onde um polinômio se generalizasse. A exceção são tokens de limite de parágrafo (\n\n), que ativam um padrão único e consistente, mas isso é a exceção que confirma a regra.

B. Estrutura de Roteamento Binário e Arquitetura de Consenso

Na Camada 11 do GPT-2 Small, foi descoberta uma arquitetura de "tratamento de exceções" altamente estruturada:

7 Neurônios "Default-ON" (Consenso): Ativam-se para 74–99% dos tokens "padrão" (caminho linear) e desativam-se para tokens não lineares.
1 Neurônio "Exception Handler" (N2123): Silencioso para tokens padrão (0.4% de ativação) e altamente ativo para tokens não lineares (80.7%).
Exclusividade Mútua: O neurônio N2123 e os 7 neurônios de consenso são 93–98% mutuamente exclusivos. Isso não é um artefato estatístico, mas uma propriedade geométrica aprendida dos pesos (espaços semi-espaciais complementares).
Gradiente de Consenso Monotônico:
- Quando os 7 neurônios de consenso concordam (todos ativos), N2123 está inativo e a norma de saída do MLP é baixa (~70), indicando que o processamento é essencialmente linear.
- Quando o consenso falha (nenhum ou poucos ativos), N2123 dispara e a norma de saída salta para ~194 (2.8x maior), ativando o cálculo não linear completo.

C. Lógica Binária Interpretável

Ao binarizar os 8 neurônios mais discriminativos, o artigo extrai "pseudocódigo" lógico:

Padrões binários específicos correspondem a categorias gramaticais (ex: palavras funcionais fechadas, pronomes de sujeito, contexto narrativo de passado).
O MLP atua como um "tagger de parte do discurso" suave, composto por detectores de características binárias que decidem qual correção não linear aplicar.

D. Validação Causal (Ablação)

A importância funcional do MLP depende do nível de consenso:

Quebra de Consenso (0/7): Remover o MLP aumenta a perplexidade em 43.3%. O MLP é crucial para resolver ambiguidades.
Consenso Total (7/7): Remover o MLP aumenta a perplexidade em apenas 10.1%.
Razão: A contribuição do MLP para a previsão do próximo token é 4x maior quando o consenso falha. Em consenso total, a intervenção do MLP é ruído (até ligeiramente prejudicial, com boost < 1.0x).

4. Contribuições Chave

Mudança de Paradigma: Propõe que a caracterização de redes profundas como "aproximadores de splines" deve ser complementada por uma caracterização de roteamento. Ao longo da variedade de dados, as fronteiras implementam decisões binárias sobre quais tokens precisam de processamento não linear.
Arquitetura de Consenso/Exceção: Identifica um mecanismo emergente onde um "comitê" de neurônios (consenso) valida se o processamento linear é suficiente. Se o consenso falha, um "gerente de exceções" (N2123) ativa o caminho não linear completo.
Separação de Informação: Demonstra que a decisão de roteamento é capturada quase perfeitamente por características binárias (perda de informação ~0%), enquanto a magnitude das ativações contínuas carrega informações adicionais sobre quanto correção é necessária.
Arcos de Desenvolvimento: Revela que essa arquitetura não é uniforme. Ela evolui através das camadas:
- Camadas de Suporte (L0-L3): Roteamento via neurônios "gateway" individuais.
- Camadas Difusas (L4-L6): Processamento distribuído sem roteamento binário claro.
- Camadas de Decisão (L7-L11): Cristalização da arquitetura de consenso completo com quóruns crescentes (1 → 3 → 7 neurônios).

5. Significado e Implicações

Interpretabilidade: O estudo oferece uma nova lente para entender o que os MLPs calculam. Em vez de tentar aproximar curvas complexas, podemos entender o MLP como um sistema de comutação que direciona sinais contínuos por caminhos qualitativamente diferentes baseados em condições lógicas discretas.
Eficiência e Linearização: Os resultados sugerem uma estratégia de otimização: identificar tokens onde o "consenso" está intacto e pular (ou linearizar drasticamente) o cálculo do MLP, pois sua contribuição é ruído. Isso valida hipóteses de linearização seletiva.
Relação com Teoria da Informação: A emergência de estruturas discretas em um sistema otimizado continuamente (gradiente descendente) é análoga ao uso de transistores contínuos para lógica digital ou potenciais de ação "tudo ou nada" em neurônios biológicos. A discretização oferece robustez contra ruído em um canal de representação superposto (residual stream).
Limitações e Futuro: O padrão de "um único manipulador de exceções" foi observado no GPT-2 Small, mas não se replicou limpa-mente em modelos maiores (Medium/Large), sugerindo que pode ser uma estratégia de compressão devido à capacidade limitada, ou que modelos maiores usam arquiteturas de roteamento mais distribuídas.

Conclusão Final: O MLP não é apenas um aproximador de funções suaves; é um sistema híbrido de roteamento binário de sinais contínuos. A lógica de roteamento (discreta) determina se o processamento não linear ocorre, enquanto a magnitude do sinal (contínua) determina a natureza da correção aplicada.