Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando restaurar uma foto antiga e danificada. Você contrata um time de especialistas (a Inteligência Artificial) para consertar cada detalhe: remover riscos, limpar manchas e aumentar a resolução.

Este artigo de pesquisa, apresentado na conferência ICLR 2026, descobre que, embora esses especialistas sejam muito inteligentes, eles estão usando uma ferramenta errada que os está deixando confusos e fazendo o trabalho sair "fora de controle".

Aqui está a explicação simples do que eles descobriram e como consertaram:

1. O Problema: O "Controle de Qualidade" que Quebrou

Na arquitetura dessas redes neurais (chamadas Transformers), existe uma ferramenta chamada LayerNorm (Normalização de Camada). Pense nela como um gerente de controle de qualidade que verifica o trabalho de cada funcionário (cada "pedaço" da imagem) individualmente.

O que deveria acontecer: O gerente olha para cada funcionário, ajusta o volume da voz deles para que todos falem no mesmo tom, e pronto.
O que estava acontecendo de verdade: O gerente estava tão focado em ajustar cada funcionário individualmente que esqueceu de olhar para o grupo todo.
- A Consequência 1 (O Grito de Milhão): Como os funcionários não conseguiam se entender entre si, eles começaram a gritar cada vez mais alto para tentar ser ouvidos. Na matemática da rede, isso significa que os números (as "magnitudes") cresceram até atingir escalas de milhões. É como se o sistema de som da sala estivesse no volume máximo, distorcendo tudo.
- A Consequência 2 (A Perda de Entropia): Em vez de ter uma conversa rica e variada entre os funcionários, todos começaram a falar a mesma coisa ou a mesma pessoa começou a dominar a conversa. A "diversidade" da informação desapareceu.

O artigo diz que a rede estava tentando "enganar" o gerente, criando valores extremos para contornar as regras rígidas que não faziam sentido para a tarefa de restaurar imagens.

2. A Solução: O Novo Gerente "i-LN"

Os autores criaram uma nova ferramenta chamada i-LN (Layer Normalização Tailorada para Restauração de Imagem). Eles mudaram a regra do jogo de duas formas simples:

A. Olhar para o Quadro Completo (Não apenas para um funcionário)

Em vez de o gerente olhar para cada funcionário isoladamente, ele agora olha para toda a sala de uma vez.

Analogia: Imagine que você está organizando uma orquestra. O método antigo ajustava o violino, depois a trompa, depois o tambor, um por um, sem ouvir o conjunto. O novo método (i-LN) ouve a orquestra inteira e ajusta o volume de todos juntos para que a música soe harmoniosa. Isso preserva a relação espacial entre os pixels (as partes da imagem), garantindo que uma borda de um prédio não fique desconectada do telhado.

B. Ajuste Inteligente Baseado na Entrada

O novo gerente é mais flexível. Ele percebe que cada foto que chega é diferente (uma pode estar muito escura, outra muito clara).

Analogia: O método antigo tratava todas as fotos como se fossem iguais, forçando-as a caber em um molde único. O novo método diz: "Ok, esta foto precisa de um ajuste de brilho diferente daquela". Ele permite que a rede mantenha as características únicas de cada imagem, em vez de apagá-las.

3. O Resultado: Uma Restauração Perfeita

Com essa mudança simples (que é como trocar uma peça de um carro sem precisar mudar o motor todo), os resultados foram impressionantes:

Estabilidade: Os números pararam de gritar (chegar a milhões) e voltaram a um nível normal e saudável.
Qualidade: As imagens restauradas ficaram muito mais nítidas, com bordas mais definidas e menos "artefatos" (aquelas manchinhas estranhas ou borrões).
Robustez: O sistema funciona bem mesmo em computadores mais fracos ou quando a imagem é muito difícil de restaurar (como fotos reais de chuva ou baixa qualidade).

Resumo em uma Frase

Os pesquisadores descobriram que a ferramenta padrão usada para treinar redes de IA para consertar fotos estava "sufocando" a inteligência do sistema. Ao mudar essa ferramenta para uma que olha para a imagem como um todo e se adapta a cada caso, eles conseguiram restaurar fotos com uma qualidade muito superior e de forma muito mais estável.

É como se eles tivessem trocado um gerente rígido e cego por um maestro sensível que entende que, para fazer uma boa música (ou uma boa foto restaurada), todos os instrumentos precisam trabalhar juntos, e não apenas individualmente.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Dinâmicas de Treinamento Anômalas em Transformers de Restauração de Imagem

Os autores identificam um fenômeno crítico e negligenciado no treinamento de Transformers para Restauração de Imagem (IR), como Super-Resolução (SR), Remoção de Ruído (DN) e Remoção de Chuva (DR).

Divergência de Magnitude de Características: Ao treinar Transformers de IR convencionais (que utilizam LayerNorm padrão), as magnitudes das características internas divergem dramaticamente, atingindo escalas de milhões (ex: $10^7$ ).
Colapso da Entropia Canais: Simultaneamente, observa-se uma queda acentuada na entropia das características ao longo do eixo dos canais. Isso indica que a informação se concentra em poucos canais extremos, enquanto a maioria dos canais fica inativa ou com valores anormais.
Causa Raiz (Hipótese): O artigo propõe que a rede tenta "contornar" as restrições impostas pela normalização LayerNorm (LN) padrão, que conflitam com os requisitos únicos das tarefas de IR. Existem dois desalinhamentos principais:
1. Normalização por Token (Per-token): A LN padrão normaliza cada "token" (patch de imagem) independentemente, ignorando as correlações espaciais entre pixels vizinhos. Isso destrói a estrutura espacial essencial para a restauração fiel.
2. Escala Independente do Input: A LN mapeia características para um espaço normalizado unificado, descartando estatísticas dependentes do input (como a magnitude global), o que limita a flexibilidade necessária para representar variações complexas em tarefas de restauração.

2. Metodologia: i-LN (Image Restoration Transformer Tailored Layer Normalization)

Para resolver esses desalinhamentos, os autores propõem o i-LN, uma substituição simples ("drop-in replacement") para a LayerNorm convencional. O i-LN combina duas modificações fundamentais:

A. Normalização Espacialmente Holística (LN)*

Em vez de calcular estatísticas de média e variância para cada token individualmente, o i-LN calcula essas estatísticas sobre todo o domínio espacial e de canais da característica de entrada.

Mecanismo: A média ( $\mu$ ) e o desvio padrão ( $\sigma$ ) são calculados sobre todos os tokens ( $L$ ) e canais ( $C$ ) simultaneamente.
Benefício Teórico: Matematicamente, isso transforma a normalização em uma homotetia (escala global + translação), preservando a estrutura inter-pixel (relações de ângulo e distância entre tokens). Isso mantém as correlações espaciais intactas, ao contrário da LN padrão que as distorce.

B. Redimensionamento Adaptativo ao Input (Rescaling)

A normalização holística remove a escala global, o que pode ser prejudicial se não for restaurada. O i-LN reintroduz essa flexibilidade através de um redimensionamento adaptativo.

Mecanismo: Após as camadas de Atenção (Attn) e Feed-Forward (FFN), as características são redimensionadas explicitamente usando o desvio padrão ( $\sigma$ ) calculado no processo de normalização anterior.
Fórmula: A saída de um bloco $B$ é dada por:
$B(x; f, \text{i-LN}) = x + \sqrt{\sigma^2 + \epsilon} \cdot f(\text{LN}^*(x))$
Onde $f$ é a operação de Atenção ou FFN.
Benefício: Isso restaura a estatística de magnitude original perdida pela normalização, permitindo que a rede preserve estatísticas dependentes do input e mantenha a flexibilidade do intervalo de características.

3. Contribuições Chave

Análise de Dinâmica de Treinamento: Primeira análise detalhada mostrando que a divergência de magnitude e o colapso de entropia são sintomas de um conflito fundamental entre a normalização per-token e as necessidades de restauração de imagem.
Proposta de i-LN: Um método simples e eficaz que alinha a normalização com os requisitos de IR, preservando correlações espaciais e estatísticas de input.
Insights Teóricos: Demonstração formal de que a LN padrão não preserva a estrutura inter-pixel (não é conformal no conjunto de tokens), enquanto a abordagem holística (LN*) é uma homotetia que preserva essa estrutura.
Robustez em Baixa Precisão: Evidência de que o i-LN é crucial para inferência em baixa precisão (FP16 ou quantização), onde a LN padrão falha catastróficamente devido a valores infinitos gerados pela divergência de magnitude.

4. Resultados Experimentais

Os autores realizaram extensos experimentos em diversas tarefas de IR (Super-Resolução, Remoção de Ruído, Remoção de Chuva, Remoção de Artefatos de JPEG) usando backbones como HAT, SwinIR e DRCT.

Estabilidade de Treinamento: O i-LN elimina a divergência de magnitude (mantendo as características em escalas normais, próximas a $N(0,1)$ ) e previne o colapso da entropia, resultando em curvas de treinamento muito mais estáveis e consistentes entre diferentes sementes aleatórias.
Desempenho Quantitativo:
- Super-Resolução (SR): Melhorias significativas em PSNR e SSIM em todos os benchmarks (Set5, Set14, Urban100, etc.). Por exemplo, no HAT1 ×4 SR, o i-LN superou a LN padrão em +0.21 dB no Urban100.
- Outras Tarefas: Melhorias consistentes em Remoção de Ruído, Deraining e Remoção de Artefatos de JPEG.
Qualidade Visual: As imagens restauradas com i-LN exibem bordas mais nítidas, texturas mais claras e menos artefatos, especialmente em detalhes de alta frequência.
Inferência em Baixa Precisão:
- Em inferência FP16, a LN padrão falha completamente (gerando "pontos negros" ou valores infinitos), enquanto o i-LN mantém a fidelidade quase zero de perda.
- Em quantização de pesos (INT8/INT4), o i-LN demonstra robustez superior, mantendo o desempenho muito mais próximo do modelo de precisão completa.
Correlação Espacial: A visualização dos Relative Position Embeddings (RPE) mostra que o i-LN aprende padrões estruturados semelhantes a filtros convolucionais, indicando uma melhor compreensão das relações espaciais entre pixels.

5. Significado e Conclusão

Este trabalho desafia a adoção padrão de LayerNorm em Transformers para visão computacional de baixo nível (restauração de imagem).

Mudança de Paradigma: Demonstra que a normalização não é apenas uma ferramenta de estabilização, mas um componente que deve ser alinhado com a natureza da tarefa. Para IR, a preservação de estatísticas espaciais e de magnitude do input é vital.
Simplicidade e Eficácia: A solução proposta (i-LN) é computacionalmente barata, fácil de implementar (substituição direta) e traz ganhos substanciais de desempenho e estabilidade.
Impacto Prático: A robustez do i-LN em cenários de baixa precisão é particularmente relevante para a implantação de modelos em dispositivos de borda (edge devices), onde a eficiência energética e a precisão reduzida são comuns.

Em resumo, o i-LN corrige uma falha fundamental na arquitetura de Transformers para restauração de imagem, permitindo que a rede preserve as características de baixo nível necessárias para uma reconstrução fiel, resultando em modelos mais estáveis, precisos e robustos.