MXNorm: Reusing MXFP block scales for efficient tensor normalisation

O artigo apresenta o MXNorm, uma alternativa eficiente ao RMSNorm que reutiliza escalas de blocos MXFP8 para reduzir drasticamente o tamanho das operações de redução, mantendo a precisão do treinamento e oferecendo acelerações práticas em kernels de modelos como o Llama 3.

Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi

Publicado 2026-03-16
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um arranha-céu gigante (um modelo de Inteligência Artificial) usando tijolos muito pequenos e leves (dados de baixa precisão). O objetivo é construir o prédio o mais rápido possível.

Nos últimos anos, a tecnologia evoluiu tanto que a parte de "empilhar tijolos" (multiplicação de matrizes) ficou extremamente rápida. É como se tivéssemos robôs que colocam tijolos na velocidade da luz.

O Problema: O "Chefe" que demora demais
No entanto, antes de empilhar os tijolos, há um passo crucial: o "Chefe" precisa verificar se a parede está reta e nivelada. Na linguagem de IA, isso se chama Normalização.
O problema é que, enquanto os robôs de empilhar ficaram 80 vezes mais rápidos, o "Chefe" que verifica o nível só ficou cerca de 5 vezes mais rápido. Ele se tornou o gargalo, o ponto lento que segura todo o progresso. Além disso, para fazer esse trabalho de nível, o "Chefe" precisa de ferramentas pesadas e precisas (alta precisão), o que gasta muita energia e tempo.

A Solução: MXNorm (O "Chefe" Inteligente)
Os autores deste paper, da Graphcore, criaram uma solução chamada MXNorm. A ideia é genial e simples:

  1. O Truque da Reutilização: Para colocar os tijolos na nova tecnologia (formato MXFP), os robôs já precisam calcular um "fator de escala" para cada bloco de tijolos. É como se eles já medissem o tamanho do bloco antes de empilhá-lo.
  2. A Pulo do Gato: Em vez de o "Chefe" (Normalização) fazer uma nova medição completa e demorada para ver se a parede está reta, o MXNorm diz: "Ei, vocês já mediram o tamanho do bloco para o robô, não? Usem essa mesma medida para nivelar a parede também!"

A Analogia do Buffet
Pense em um buffet de comida:

  • Método Antigo (RMSNorm): Você pega um prato, coloca a comida, depois vai até a balança, pesa tudo, calcula a média, ajusta o prato e só então serve. É preciso, mas lento.
  • Método Novo (MXNorm): O garçom já sabe o tamanho do prato e a quantidade de comida que vai servir (porque ele já organizou a comida em porções padronizadas). Ele usa essa informação prévia para garantir que o prato não fique pesado demais, sem precisar ir à balança novamente.

O que eles descobriram?

  • Funciona de verdade: Eles testaram isso em modelos gigantes (como o Llama 3, com bilhões de parâmetros) e descobriram que a qualidade da "parede" (a precisão do modelo) não caiu. O prédio ficou tão sólido quanto antes.
  • Velocidade: Como o "Chefe" não precisa mais fazer o trabalho pesado de medir tudo do zero, o processo ficou muito mais rápido. Em alguns casos, a velocidade aumentou em até 2,4 vezes apenas nessa etapa.
  • O Segredo do Sucesso: Eles perceberam que usar uma média simples (p=1) às vezes falhava em modelos gigantes, permitindo que "tijolos fora do lugar" (valores extremos) estragassem a parede. Mas, usando uma média mais robusta (p=2, que é como uma média quadrática), eles conseguiram manter a estabilidade perfeita, igual ao método antigo.

Resumo em uma frase:
O MXNorm é uma técnica inteligente que reaproveita medições que já estavam sendo feitas para outra tarefa, eliminando a necessidade de um passo lento e pesado, permitindo que os modelos de IA cresçam mais rápido e consumam menos energia, sem perder qualidade.

É como se você descobrisse que, para saber se a sua casa está nivelada, não precisa usar um nível de bolha novo; basta olhar para a sombra que a casa já projeta no chão e usar isso como referência.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →