MXNorm: Reusing MXFP block scales for efficient tensor normalisation

El artículo presenta MXNorm, una alternativa eficiente a RMSNorm que reutiliza las escalas de bloques MXFP8 para reducir drásticamente el tamaño de las operaciones de reducción necesarias para la normalización, logrando aceleraciones en el entrenamiento de modelos Llama 3 sin comprometer la precisión.

Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi

Publicado 2026-03-16
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estamos construyendo un rascacielos gigante (una Inteligencia Artificial) y tenemos un equipo de obreros muy rápido, pero con una herramienta específica que les encanta usar: multiplicar números.

Aquí está la explicación de "MXNorm" usando una analogía sencilla:

1. El Problema: El "Cuello de Botella" en la Fábrica

Imagina que tienes una fábrica de juguetes (la IA).

  • La Máquina Estrella: Tienes una máquina súper rápida que puede ensamblar piezas (multiplicar matrices) a una velocidad increíble. Es como un Ferrari.
  • El Problema: Antes de que las piezas lleguen a esa máquina, necesitan ser limpiadas y ordenadas (esto se llama "normalización"). Si no se limpian, el Ferrari se atasca o se rompe.
  • La Realidad: La máquina de ensamblaje (multiplicación) se ha vuelto 80 veces más rápida en los últimos años. ¡Pero la máquina de limpieza (normalización) solo se ha vuelto un poco más rápida!
  • Resultado: El Ferrari (la multiplicación) está esperando todo el tiempo a que la máquina de limpieza termine su trabajo. Es como tener un coche de carreras atascado en un semáforo rojo.

2. La Solución: MXNorm (El "Truco del Inspector")

Los autores del paper (de Graphcore) se dieron cuenta de algo genial. Para limpiar las piezas, necesitan calcular un promedio de "suciedad" (llamado RMS). Para multiplicar las piezas en formato de baja precisión (MXFP), también necesitan calcular un "tamaño de bloque" (llamado escala).

La analogía:
Imagina que tienes una caja de juguetes desordenados.

  • El método antiguo (RMSNorm): Primero, un inspector cuenta cada juguete uno por uno para calcular el promedio de suciedad, limpia la caja, y luego pasa a otro inspector que mide el tamaño de la caja para empaquetarla. Son dos pasos separados.
  • El nuevo método (MXNorm): Se dan cuenta de que el inspector que mide el tamaño de la caja para empaquetarla (MXFP) ya tiene la información necesaria para saber qué tan sucia está la caja.
    • MXNorm dice: "¡Espera! No necesitamos contar de nuevo. ¡Usa la misma medida que ya calculaste para empaquetar para limpiar la caja también!"

3. ¿Cómo funciona mágicamente?

En lugar de hacer dos viajes por la fábrica (uno para limpiar, otro para empaquetar), MXNorm hace un solo viaje.

  • Reutiliza la "escala" (el tamaño del bloque) que ya se calculó para convertir los números a un formato pequeño y rápido.
  • Usa esa misma escala para estimar qué tan "grandes" son los números y normalizarlos.
  • El resultado: Se eliminan muchos cálculos innecesarios. Es como si el inspector de limpieza y el de empaquetado fueran la misma persona, ahorrando tiempo y energía.

4. ¿Funciona bien? (El riesgo de los "Gigantes")

Aquí viene la parte interesante. Al hacer este truco, hay un pequeño riesgo.

  • Si usas un método de cálculo muy simple (llamado "media aritmética" o p=1), a veces la IA se vuelve inestable. Es como si el inspector de limpieza, al ser muy rápido, se saltara un juguete gigante y sucio (un "outlier") y luego la caja se rompa.
  • La solución: Los autores probaron un método más robusto (llamado "media cuadrática" o p=2). Este método es como un inspector más cuidadoso que, aunque usa el mismo truco rápido, sabe exactamente cómo manejar esos "juguetes gigantes" que podrían romper la caja.
  • Resultado: Con el método correcto (p=2), la IA (Llama 3) aprende tan bien como antes, pero mucho más rápido.

5. Los Resultados en la Vida Real

  • Velocidad: En las pruebas reales, este método hizo que las capas de la IA fueran entre un 1.3% y un 2.6% más rápidas. Parece poco, pero en una IA que procesa millones de datos, eso es como ahorrar horas de tiempo de entrenamiento.
  • Calidad: La IA no perdió inteligencia. Siguió aprendiendo tan bien como con el método antiguo, pero sin el "cuello de botella".
  • Hardware: Funciona en las tarjetas gráficas más modernas (como las GB200 de NVIDIA), aprovechando al máximo su potencia.

En resumen

MXNorm es como descubrir que puedes usar la misma regla para medir y para cortar, en lugar de usar una regla y luego una cuchilla separada.

  • Antes: Multiplicar (rápido) -> Esperar a limpiar (lento) -> Multiplicar de nuevo.
  • Ahora: Multiplicar y limpiar al mismo tiempo usando el mismo dato.

Esto permite que las Inteligencias Artificiales crezcan más rápido, consuman menos energía y sean más eficientes, resolviendo el problema de que la "limpieza" se había quedado atrás en comparación con la velocidad de ensamblaje.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →