On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

Imagina que entrenar una Inteligencia Artificial (IA) es como dirigir una orquesta gigante. Tienes cientos de músicos (los "neuronas" de la red) tocando juntos.

El problema principal que este paper aborda es el siguiente: Cuando haces la orquesta más grande (añades más músicos), ¿sigue funcionando la misma partitura?

En el mundo de la IA, "hacer la orquesta más grande" significa aumentar el ancho de la red neuronal (más neuronas por capa). Lo que los autores descubrieron es que, si usas las reglas tradicionales para entrenar estas redes (como los optimizadores AdamW o Muon), la música se vuelve un caos cuando añades más músicos. Tienes que volver a ajustar todos los instrumentos (los "hiperparámetros", como la velocidad de aprendizaje) cada vez que haces la red más grande. Es como si tuvieras que reescribir toda la partitura cada vez que contratas a un nuevo violinista.

La Metáfora del "Ruido" y la "Suavidad"

Para entenderlo mejor, usen estas dos analogías:

El Volumen (Lipschitz): Imagina que la red neuronal es un sistema de altavoces. Si subes el volumen (añades más neuronas) y el sistema no está bien calibrado, el sonido se distorsiona o se rompe. Los autores dicen que los métodos actuales no controlan bien este "volumen" cuando la red crece.
El Terreno (Suavidad): Imagina que entrenar la IA es como bajar una montaña en bicicleta.
- Un terreno suave es como una carretera pavimentada: puedes ir rápido y seguro.
- Un terreno áspero es un camino lleno de piedras: tienes que ir muy lento para no caerte.
- El paper descubre que, con los métodos actuales (como Muon), cuando haces la red más grande, el camino se vuelve más pedregoso (más "áspero"). Tienes que frenar drásticamente (bajar la velocidad de aprendizaje) para no chocar.

La Solución: MOGA (El "Ajustador de Medias")

Los autores proponen una nueva forma de ver el problema, llamada MOGA. En lugar de mirar a cada neurona individualmente, miran al promedio de cómo se comportan las neuronas en filas y columnas.

Piénsalo así:

El método antiguo (Muón): Intenta equilibrar la orquesta mirando la "energía total" de todos los músicos. Si añades más músicos, la energía total explota y tienes que bajar el volumen de todos a la mitad (o menos) para que no se rompa nada.
El método nuevo (MOGA): En lugar de mirar la energía total, mira el promedio por fila. Si añades más músicos, el promedio se mantiene estable. ¡No necesitas cambiar la partitura!

¿Qué significa esto en la vida real?

Transferencia de Aprendizaje (El "Truco de Magia"):
Con MOGA, si entrenas una red pequeña (digamos, con 500 neuronas) y encuentras la velocidad perfecta para que aprenda rápido, esa misma velocidad funcionará si luego creas una red gigante con 5,000 neuronas.
- Analogía: Es como si aprendieras a conducir un coche pequeño en la ciudad y, al subirte a un camión gigante, pudieras conducir a la misma velocidad sin chocar. Con los métodos viejos, tendrías que aprender a conducir el camión desde cero.
Ahorro de Dinero y Tiempo:
Entrenar IAs gigantes es extremadamente caro (usa miles de tarjetas gráficas). Si tienes que probar 50 velocidades de aprendizaje diferentes para cada tamaño de red, pierdes mucho dinero. MOGA elimina esa necesidad. Ajustas la red pequeña una vez, y listo, escalas a la grande.
Velocidad en la Meta:
El paper muestra que MOGA no solo es más fácil de configurar, sino que en las etapas finales del entrenamiento (cuando la IA ya sabe mucho y está afinando detalles), es más rápido y estable que los métodos actuales. Es como llegar a la cima de la montaña corriendo en lugar de gatear por las piedras.

Resumen en una frase

Este paper inventa una nueva "regla de oro" para entrenar IAs que hace que, sin importar cuán grande y compleja sea la red neuronal, el proceso de aprendizaje se mantenga estable y predecible, permitiendo que lo que funciona en una red pequeña funcione mágicamente en una gigante, ahorrando tiempo, dinero y dolores de cabeza.

La clave: En lugar de mirar la fuerza bruta de la red, miran el promedio de sus partes, lo que mantiene el equilibrio perfecto incluso cuando la red crece hasta el infinito.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Escalado de Ancho en Optimizadores Neuronales bajo Normas de Operador Matricial

1. El Problema

Un desafío central en el aprendizaje profundo moderno es diseñar optimizadores cuyo comportamiento permanezca estable a medida que aumenta el ancho de la red neuronal ( $w$ ). Actualmente, existen brechas fundamentales en la transferencia de hiperparámetros:

Dependencia del ancho: Los optimizadores estándar (como AdamW) y avanzados (como Muon) requieren un ajuste fino del tasa de aprendizaje ( $\eta$ ) específico para cada ancho de red. Una tasa optimizada para una red de 512 unidades ocultas puede causar divergencia o un entrenamiento extremadamente lento si el ancho se aumenta a 2048.
Falta de teoría unificada: No existe un mecanismo teórico robusto que explique cómo escalar los hiperparámetros de manera independiente del ancho para una amplia clase de optimizadores, más allá de casos específicos como la parametrización $\mu$ P (Maximal Update Parametrization).
Limitaciones geométricas: Las normas de operador matricial clásicas ( $p \to q$ ) no garantizan un control estable de las constantes de Lipschitz y suavidad ( $L$ -smoothness) cuando se componen a través de múltiples capas en arquitecturas profundas, especialmente cuando $p < q$ .

2. Metodología y Marco Teórico

Los autores proponen un marco unificado que interpreta los optimizadores neuronales como instancias de descenso de gradiente más pronunciado (steepest descent) bajo diferentes normas de operador matricial.

Interpretación Geométrica:
- Se modela la actualización de parámetros como la búsqueda de una dirección de descenso unitario bajo una norma específica.
- Se analiza cómo las constantes de Lipschitz (sensibilidad a perturbaciones) y de suavidad (curvatura del paisaje de pérdida) se comportan al escalar el ancho de la red.
- Se demuestra que las normas clásicas $p \to q$ (con $p \le q$ ) fallan en proporcionar límites independientes del ancho debido a un "desajuste geométrico" entre capas consecutivas, donde las constantes de acoplamiento crecen con la dimensión.
Innovación Clave: Normas Normalizadas por la Media (Mean-Normalized Norms):
Para resolver el problema de la dependencia dimensional, los autores introducen una nueva familia de normas: $(p, \text{mean}) \to (q, \text{mean})$ .
- Definición: $\| \mathbf{x} \|_{(p, \text{mean})} = n^{-1/p} \| \mathbf{x} \|_p$ .
- Propiedad Fundamental: Estas normas eliminan el crecimiento dimensional inherente a las normas $\ell_p$ estándar, garantizando que la norma del operador identidad entre capas sea $\le 1$ . Esto permite que los límites de Lipschitz y suavidad se compongan de manera estable a través de la red, independientemente del ancho $w$ .
Análisis de Suavidad ( $L$ -smoothness):
- Se demuestra teóricamente que la suavidad es independiente del ancho si $q \ge 2p$ .
- Caso Muon: Bajo la geometría $(2, \text{mean}) \to (2, \text{mean})$ , la constante de suavidad crece como $O(\sqrt{w})$ , lo que implica inestabilidad potencial en el entrenamiento a gran escala.
- Nuevas Geometrías: Las geometrías $(1, \text{mean}) \to (q, \text{mean})$ con $q \ge 2$ y $(p, \text{mean}) \to \infty$ logran una suavidad independiente del ancho.

3. Contribuciones Principales

Marco Unificado de Optimizadores: Se demuestra que optimizadores populares como SignSGD, AdamW, GradPower y Muon son casos especiales de descenso de gradiente bajo normas de operador matricial específicas.
Teoría de Escalado Independiente del Ancho: Se introduce la geometría de normas normalizadas por la media, que proporciona límites teóricos rigurosos para la estabilidad de Lipschitz y suavidad sin dependencia del ancho de la red.
Algoritmo MOGA (Matrix Operator Geometry Aware):
- Se propone una nueva familia de optimizadores basada en estas geometrías.
- Reglas de Escalado: Deriva reglas de tasa de aprendizaje explícitas y conscientes del ancho. Por ejemplo, para la normalización de filas (Row Normalization) con norma $(p, \text{mean}) \to \infty$ , la tasa de aprendizaje debe escalar con $d_{in}^{-1/p}$ .
- Generalización: MOGA recupera la regla de escalado $\mu$ P como un caso especial (para Adam/SignSGD), pero desde una perspectiva de geometría de optimización en lugar de solo condiciones espectrales de inicialización.
Análisis de Compromiso (Trade-off): Se estudia el equilibrio entre la suavidad de la optimización y la capacidad de aproximación. Se concluye que la normalización de filas ofrece un mejor equilibrio que la normalización de columnas, ya que restringe menos el espacio de parámetros mientras mantiene una suavidad independiente del ancho.

4. Resultados Experimentales

Los autores validan sus hallazgos mediante entrenamiento a gran escala en modelos de lenguaje (GPT-2 y LLaMA):

Transferencia de Tasa de Aprendizaje:
- MOGA (específicamente con normalización de filas) logra que la tasa de aprendizaje óptima sea invariante al ancho. Modelos con tamaños muy diferentes (desde 124M hasta 1.5B parámetros) alcanzan su mejor rendimiento con casi la misma tasa de aprendizaje pico.
- Esto elimina la necesidad de re-ajustar hiperparámetros al escalar el modelo.
Eficiencia en Presupuestos de Tokens:
- Presupuesto Estándar (~1x Chinchilla): MOGA es competitivo con Muon y AdamW, convergiendo más rápido que AdamW.
- Presupuesto Grande (~8x Chinchilla): MOGA con normalización de filas supera a los baselines en la fase final del entrenamiento (régimen de baja pérdida). Muestra una convergencia más rápida y estable cuando el entrenamiento es largo, un escenario crítico para el despliegue de modelos grandes.
Comparación con Muon: Aunque Muon es efectivo, MOGA con normalización de filas evita el crecimiento de la constante de suavidad ( $O(\sqrt{w})$ ) asociado a Muon, resultando en una mayor estabilidad en el régimen de baja pérdida.

5. Significado e Impacto

Este trabajo proporciona una base teórica sólida para el diseño de optimizadores escalables:

Principio de Diseño: Establece que la estabilidad del entrenamiento a gran escala depende de elegir una geometría de optimización que respete la estructura de composición de las redes neuronales (mediante normas normalizadas por la media).
Práctica Industrial: Ofrece un mecanismo principista para la transferencia de hiperparámetros, reduciendo drásticamente el costo computacional de escalar modelos.
Superioridad Teórica: Demuestra que la estabilidad no requiere necesariamente las condiciones espectrales estrictas de $\mu$ P, sino que puede lograrse mediante el control geométrico de la suavidad, permitiendo el uso de una gama más amplia de optimizadores (como los basados en normalización de filas) que son robustos al escalado.

En conclusión, el paper introduce MOGA, un optimizador que utiliza la normalización de filas basada en normas de operador matricial para lograr un entrenamiento estable y eficiente que escala perfectamente con el tamaño del modelo, superando las limitaciones teóricas y prácticas de optimizadores actuales como Muon y AdamW.

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

La Metáfora del "Ruido" y la "Suavidad"

La Solución: MOGA (El "Ajustador de Medias")

¿Qué significa esto en la vida real?

Resumen en una frase

Resumen Técnico: Escalado de Ancho en Optimizadores Neuronales bajo Normas de Operador Matricial

1. El Problema

2. Metodología y Marco Teórico

3. Contribuciones Principales

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models