The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um grupo de amigos (uma rede neural) a resolver um quebra-cabeça complexo. O objetivo é que eles cheguem à solução perfeita o mais rápido possível.

Neste artigo, o autor George Bird aponta um problema fundamental no jeito como ensinamos esses "amigos" hoje em dia. Ele descobre que existe uma falha de comunicação entre quem dá as instruções (os parâmetros da rede) e quem realmente executa a tarefa (as ativações, ou o que a rede "pensa" a cada passo).

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Efeito Dominó" Imperfeito

Imagine que você é o treinador (o algoritmo de otimização). Você vê que um jogador cometeu um erro e decide dar um empurrãozinho na direção certa para corrigi-lo.

O que deveria acontecer: O jogador se move exatamente na direção que você apontou, corrigindo o erro perfeitamente.
O que realmente acontece: Quando você empurra o treinador (os parâmetros), a força passa por uma série de alavancas e engrenagens antes de chegar ao jogador (as ativações). Devido a essas engrenagens, o jogador acaba se movendo em um ângulo levemente torto ou com uma força exagerada, dependendo de quão "pesado" o jogador estava naquele momento.

O autor chama isso de "Divergência Afiada" (Affine Divergence). Basicamente, a correção que a rede acha que está fazendo não é a mesma correção que ela realmente faz na prática. É como tentar ajustar o foco de uma câmera girando uma alavanca, mas a lente se move de forma errada porque a engrenagem está "desregulada".

2. A Solução Clássica: "Normalização" (O Espremedor de Limão)

Até hoje, os cientistas usavam uma técnica chamada Normalização (como BatchNorm ou LayerNorm) para consertar isso.

A analogia: Imagine que os dados que entram na rede são como suco de frutas com pedaços de polpa. Alguns copos têm muita polpa (dados grandes), outros têm pouco. A normalização age como um espremedor: ela força todos os copos a terem o mesmo tamanho e a mesma consistência antes de passarem para a próxima etapa.
O que a teoria dizia: "Isso funciona porque mantém os dados estáveis e evita que a rede fique louca com números muito grandes."
O que este paper diz: "Na verdade, o espremedor funciona porque, ao espremer tudo, ele acidentalmente corrige a engrenagem quebrada que causa a Divergência Afiada. Ele alinha o empurrão do treinador com o movimento do jogador."

3. A Grande Descoberta: Uma Nova Chave de Fenda

O autor não apenas explicou por que o espremedor funciona, mas criou uma nova ferramenta que é ainda melhor.

Ele criou um método chamado "Mapa Afiado" (Affine-like).
A diferença: O espremedor (normalização) força todos os dados a ficarem iguais (tamanho padrão), o que pode apagar informações úteis (como a "intensidade" do sinal). O novo método, o "Mapa Afiado", ajusta a engrenagem sem espremer os dados. Ele deixa os dados com seu tamanho original, mas garante que o empurrão do treinador chegue perfeitamente alinhado ao jogador.
Resultado: Em testes, essa nova ferramenta funcionou tão bem quanto, ou até melhor que, os espremedores tradicionais, provando que o segredo não era "espremer" os dados, mas sim alinhar a direção do movimento.

4. A Surpresa: O Tamanho do Grupo Importa (e não como você pensa)

Há uma crença comum de que treinar com grupos maiores (mais dados de uma vez) é sempre melhor.

A analogia: Imagine que você está tentando ensinar uma sala cheia de pessoas. Se a sala for pequena, você consegue ouvir cada um. Se a sala for gigante, o barulho atrapalha.
A descoberta: O autor descobriu que, para o seu novo método de alinhamento perfeito, grupos maiores podem atrapalhar. Por quê? Porque quando você tenta corrigir 100 pessoas ao mesmo tempo com uma única alavanca, os movimentos de uma pessoa começam a "atrapalhar" o movimento da outra (interferência).
Isso é contra-intuitivo! A maioria das técnicas de IA gosta de grupos grandes. O fato de o novo método funcionar pior com grupos grandes é uma prova de que a teoria dele está correta: ele está tentando corrigir o movimento individual de cada "jogador", e grupos grandes misturam tudo.

5. O Futuro: "PatchNorm" (Para Imagens)

O autor também tentou aplicar essa ideia em redes que processam imagens (Convolução).

O desafio: Em imagens, os "pedaços" (patches) não são independentes como pessoas em uma sala; eles se sobrepõem e se misturam de forma complexa.
O resultado: A solução perfeita para imagens é mais difícil de criar porque as peças do quebra-cabeça se conectam de formas não lineares. Mesmo assim, ele criou uma versão chamada PatchNorm, que funciona bem, mas mostra que a "fórmula mágica" precisa ser adaptada para cada tipo de arquitetura.

Resumo Final

Este paper diz:

Existe um erro matemático sutil em como as redes neurais atualizam suas "pensamentos" (ativações).
As técnicas atuais (Normalização) funcionam porque corrigem esse erro sem a gente perceber.
O autor criou uma nova técnica que corrige o erro de forma mais direta, sem precisar "espremer" os dados, e ela funciona muito bem.
Isso muda a forma como entendemos o sucesso das redes neurais: não é apenas sobre estatística ou estabilidade, mas sobre alinhamento geométrico perfeito entre quem dá a ordem e quem executa.

É como se a gente estivesse dirigindo um carro com o volante desregulado há anos, e de repente alguém descobriu que, ao apertar o cinto de segurança (normalização), o volante voltava ao lugar. Agora, o autor inventou um novo volante que já vem alinhado de fábrica, sem precisar do cinto.

Each language version is independently generated for its own context, not a direct translation.

Título: A Divergência Afiada: Alinhando Atualizações de Ativação Além da Normalização

Autor: George Bird (Universidade de Manchester)
Evento: GRaM Workshop, ICLR 2026

1. O Problema: A Divergência entre Atualizações Ideais e Efetivas

O artigo identifica uma falha estrutural fundamental no processo de descida de gradiente em redes neurais profundas, denominado "Divergência Afiada" (Affine Divergence).

O Cenário Atual: Em redes neurais, os parâmetros (pesos e vieses) são atualizados na direção de descida mais íngreme em relação à perda. As ativações (representações intermediárias), que são funções dos dados de entrada, não são atualizadas diretamente; elas mudam indiretamente através da atualização dos parâmetros.
A Discrepância: O autor demonstra matematicamente que a atualização efetiva das ativações, resultante da propagação da mudança nos parâmetros, não coincide com a atualização ideal de descida mais íngreme para as próprias ativações.
A Causa: Em camadas afins (lineares), a atualização propagada das ativações contém um termo de viés quadrático dependente da amostra, especificamente proporcional a $(\|\vec{x}\|^2 + 1)$ . Isso significa que amostras com maior magnitude sofrem atualizações desproporcionalmente grandes, desviando-se da trajetória ótima de redução de perda.
Consequência: Existe um "desalinhamento" sistemático entre a correção teórica ideal para as representações e a correção efetiva que a rede realmente realiza.

2. Metodologia e Abordagem Teórica

O autor propõe uma reavaliação da otimização, priorizando o alinhamento das atualizações das representações (ativações) com a descida mais íngreme ideal, em vez de focar exclusivamente nos parâmetros.

Derivação Matemática

Considerando uma camada afim $\vec{z} = W\vec{x} + \vec{b}$ :

Gradiente Ideal: A direção ideal para atualizar $\vec{z}$ é $-\eta \nabla_{\vec{z}} L$ .
Atualização Efetiva: Ao atualizar $W$ e $\vec{b}$ e propagar para $\vec{z}$ , obtém-se um termo extra: $\Delta \vec{z}_{efetivo} \propto \nabla_{\vec{z}} L \cdot (\|\vec{x}\|^2 + 1)$ .
Solução Estrutural: Para eliminar essa divergência, o autor deriva correções estruturais que modificam o mapeamento da camada afim para cancelar o termo de viés.

Duas Famílias de Soluções Propostas

O artigo deriva duas famílias principais de correções estruturais que anulam a divergência:

Correção "Norm-like" (Semelhante à Normalização):
- Formulação: $\vec{z} = W(\frac{\vec{x}}{\|\vec{x}\|}) + \vec{b}$ .
- Equivale a uma normalização $L2$ (sem parâmetros) aplicada antes da multiplicação por pesos.
- Propriedade: É invariante à escala, mas projeta as ativações em uma esfera unitária, perdendo o grau de liberdade radial (informação de magnitude).
Correção "Affine-like" (Semelhante à Afim):
- Formulação: $\vec{z} = \frac{W\vec{x} + \vec{b}}{\sqrt{\|\vec{x}\|^2 + 1}}$ .
- Propriedade: Não é uma normalização clássica e não é invariante à escala. Preserva todos os graus de liberdade das representações (não projeta em uma esfera), atuando como um limite suave ("soft bound") não linear.
- Inovação: Esta solução é derivada puramente da necessidade de corrigir a divergência, sem assumir invariância de escala como premissa.

Generalizações

Convolução (PatchNorm): O autor propõe uma generalização para camadas convolucionais chamada "PatchNorm", onde a correção é aplicada por "patch" (janela local) em vez de por camada inteira ou lote.
Atenção e Resíduos: São discutidas as implicações para mecanismos de atenção e redes residuais, notando que a correção exata pode ser computacionalmente intratável ou exigir aproximações complexas devido às interações não lineares entre patches.

3. Resultados Experimentais

Os experimentos foram realizados em redes totalmente conectadas e convolucionais no conjunto de dados CIFAR-10, comparando as correções propostas com normalizadores padrão (BatchNorm, LayerNorm, RMSNorm, L2-Norm).

Desempenho em Redes Totalmente Conectadas:
- A correção "Affine-like" superou consistentemente todos os normalizadores tradicionais, especialmente em redes mais profundas e largas.
- Em redes com ativação Tanh, a correção estrutural (Affine-like) mostrou uma separação de desempenho clara e significativa em relação a todas as outras abordagens.
- A correção "Norm-like" também performou bem, muitas vezes superando normalizadores padrão, mas a versão "Affine-like" foi geralmente superior.
Hipótese do Tamanho do Lote (Batch Size):
- Predição Teórica: O autor prevê que, para as correções estruturais que visam alinhar amostras individualmente, o aumento do tamanho do lote introduz interferências cruzadas (termos fora da diagonal na matriz de Gram) que degradam o alinhamento ideal.
- Validação Empírica: Os resultados confirmaram uma correlação negativa entre o tamanho do lote e o desempenho para as correções estruturais (Affine-like e Norm-like). À medida que o lote aumentava, a precisão caía.
- Contraste: Normalizadores tradicionais (como BatchNorm) ou sem normalização não apresentaram essa queda drástica, e em alguns casos, melhoraram com lotes maiores. Isso valida a teoria de que o mecanismo de sucesso dessas novas correções é diferente do mecanismo estatístico dos normalizadores clássicos.
Análise de Convolução (PatchNorm):
- O "PatchNorm" funcionou bem, mas com margens menores de superioridade em comparação às redes totalmente conectadas.
- O autor argumenta que isso ocorre porque a aproximação de "amostra única" falha em convoluções devido à dependência não linear entre patches dentro de uma mesma amostra, diluindo o benefício da correção diagonal.

4. Contribuições Chave

Novo Enquadramento Teórico: Demonstra que a normalização pode ser derivada a priori como uma consequência necessária de alinhar as atualizações de parâmetros com as atualizações ideais de ativação, em vez de ser uma heurística empírica ou baseada em covariância.
Solução "Affine-like": Apresenta uma função de mapeamento nova e não normalizadora que supera as técnicas atuais, desafiando a noção de que a invariância de escala é o fator principal para o sucesso da normalização.
Decomposição de Normalizadores: Propõe que normalizadores devem ser vistos como uma composição de um mapeamento não linear (semelhante a uma função de ativação) e um escalonamento parametrizado, dissolvendo a distinção rígida entre "normalização" e "função de ativação".
Validação Mecanística: A correlação negativa com o tamanho do lote serve como uma hipótese auxiliar falsificável que apoia a teoria da "Divergência Afiada" como a causa mecânica do sucesso dessas correções.

5. Significado e Implicações

Revisão do Design de Redes: O trabalho sugere que a priorização de quais quantidades devem ser atualizadas (parâmetros vs. representações) é uma decisão de design fundamental que impacta a eficiência do aprendizado.
Alternativa à Invariância de Escala: O sucesso da correção "Affine-like" (que não é invariante à escala) fornece evidência contra a teoria de que a invariância de escala é o motor principal do sucesso da normalização.
Novas Direções: Abre caminho para o desenvolvimento de "normalizadores" que são composicionalmente inseparáveis das camadas convolucionais (como o PatchNorm) e questiona a necessidade de separar estritamente camadas afins e não lineares.
Limitações: A aplicação direta em redes residuais e de atenção ainda é complexa devido à quebra das aproximações de camada única, indicando necessidade de futuras investigações sobre correções estruturais em arquiteturas modernas.

Em resumo, o artigo oferece uma fundamentação teórica rigorosa para a eficácia da normalização, propõe uma alternativa funcionalmente distinta e superior (Affine-like) e introduz uma nova lente mecânica para entender como as redes neurais aprendem e atualizam suas representações internas.