On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um prédio. Se você tem um projeto para uma casa de dois andares, você usa certos materiais e regras de engenharia. Mas, se decidir construir um arranha-céu de 100 andares usando exatamente as mesmas regras, o prédio pode desmoronar ou ficar instável.

Na Inteligência Artificial, acontece algo muito parecido. Quando os cientistas criam redes neurais (os "cérebros" das IAs), eles precisam ajustar um botão chamado taxa de aprendizado (learning rate). É como o passo que a IA dá para aprender.

O problema é: o passo perfeito para uma rede pequena é desastroso para uma rede gigante. Se você pegar a configuração que funcionou numa IA pequena e aplicá-la numa gigante, a IA pode parar de aprender ou começar a "alucinar" e errar tudo. Isso obriga os pesquisadores a gastarem meses testando novos valores para cada novo tamanho de modelo.

Este artigo, escrito por pesquisadores da Universidade de Chicago, UBC e Northwestern, propõe uma solução elegante para esse problema. Vamos explicar como eles fizeram isso usando analogias do dia a dia.

1. O Problema: A Escada Quebrada

Pense em uma rede neural como uma escada gigante. Cada degrau é uma camada de processamento. Para a IA aprender, ela precisa descer essa escada (reduzir o erro) dando passos na direção certa.

Os métodos atuais (como o famoso AdamW ou o mais novo Muon) são como pessoas tentando descer essa escada. O problema é que, conforme a escada fica mais larga (a rede aumenta de tamanho), a geometria da escada muda.

Em uma escada estreita, um passo de 1 metro é seguro.
Em uma escada muito larga, esse mesmo passo de 1 metro pode fazer você tropeçar e cair, porque a "sensibilidade" do chão mudou.

Os métodos antigos não percebem que o chão mudou de textura quando a escada ficou mais larga. Eles continuam dando o mesmo passo, o que causa instabilidade.

2. A Solução: A "Regra da Média" (Mean Normalization)

Os autores descobriram que o segredo não é mudar a direção do passo, mas sim ajustar o tamanho do passo de acordo com a largura da escada, de uma maneira muito específica.

Eles introduziram um conceito chamado "Norma Normalizada pela Média".

A Analogia da Turma: Imagine que você está medindo a altura de uma turma de alunos.
- Se você somar a altura de todos os alunos de uma sala de 5 pessoas, o número é pequeno.
- Se você somar a altura de uma sala de 1.000 pessoas, o número é enorme.
- Os métodos antigos olhavam para a "soma total". Se a sala crescesse, a soma explodia, e o passo da IA ficava gigante demais.
- O método novo olha para a média. Não importa se a sala tem 5 ou 1.000 alunos; a altura média permanece estável.

Ao usar essa "média" para calibrar a IA, eles garantem que, não importa o tamanho da rede (a largura da escada), a "sensibilidade" do aprendizado permanece a mesma.

3. O Novo Método: MOGA

Com base nisso, eles criaram um novo otimizador chamado MOGA (Matrix Operator Geometry Aware). Pense no MOGA como um GPS inteligente que sabe exatamente o tamanho da cidade antes de te dizer para virar.

O MOGA tem duas características principais:

Transferência de Configuração: Você treina uma IA pequena, descobre o passo perfeito (a taxa de aprendizado), e pode usar exatamente o mesmo passo para uma IA 10 vezes maior. Não precisa retestar nada! É como se o passo perfeito fosse universal.
Estabilidade: O MOGA é especialmente bom em manter a IA estável quando ela já está quase no final do treinamento (quando o erro é muito baixo), evitando que ela "tremede" e perca o progresso.

4. A Batalha dos Gigantes: MOGA vs. Muon

O artigo compara o MOGA com o Muon, que é o "queridinho" atual dos pesquisadores de IA.

Muon: É muito rápido no início, mas conforme a IA fica gigante, ele começa a ter problemas de estabilidade (o passo dele fica muito grande para a largura da rede).
MOGA (especialmente com "Normalização de Linha"): É um pouco mais lento no início, mas é muito mais estável no final. Em testes com modelos grandes (como GPT e LLaMA), o MOGA conseguiu chegar a resultados melhores e mais rápidos quando o treinamento estava avançado.

Resumo em uma Frase

Os autores criaram uma nova "régua" matemática para medir o tamanho dos passos da IA. Essa régua se adapta automaticamente ao tamanho do cérebro da máquina, permitindo que cientistas construam IAs gigantes sem precisar passar meses adivinhando como configurá-las, economizando tempo, dinheiro e energia.

Em suma: Eles descobriram como fazer a IA aprender com o mesmo ritmo, seja ela uma criança ou um gigante, tornando a construção de super-inteligências muito mais previsível e eficiente.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Escalonamento de Largura de Otimizadores Neurais sob Normas de Operadores Matriciais

1. O Problema

Um dos desafios centrais na aprendizagem profunda moderna é a transferência de hiperparâmetros (especificamente a taxa de aprendizado) à medida que a largura da rede ( $w$ ) aumenta.

Inconsistência Atual: Otimizadores padrão, como AdamW e Muon, possuem taxas de aprendizado ótimas que dependem fortemente da largura da rede. Uma taxa ajustada para uma rede com 512 unidades ocultas pode falhar (divergir ou convergir lentamente) se a largura for aumentada para 2048.
Falta de Teoria Unificada: As leis de escala atuais (Scaling Laws) não explicam como os hiperparâmetros de otimização devem variar com a largura. Existe uma lacuna entre a teoria de inicialização (como $\mu$ P) e o comportamento de otimização em larguras finitas e grandes.
Limitação Geométrica: A geometria induzida por normas de operadores matriciais clássicas ( $p \to q$ ) falha em fornecer limites de Lipschitz e suavidade independentes da largura quando as camadas são compostas em arquiteturas profundas, devido a uma incompatibilidade geométrica entre as normas de entrada e saída de camadas adjacentes.

2. Metodologia

Os autores propõem uma nova perspectiva unificadora, interpretando otimizadores neurais como instâncias de descida de íngreme (steepest descent) sob diferentes normas de operadores matriciais.

Abordagem Geométrica:
- Otimizadores como SignSGD, AdamW, GradPower e Muon são reanalisados como descida de íngreme sob normas específicas (ex: AdamW sob norma $\ell_1 \to \ell_\infty$ , Muon sob norma espectral $\ell_2 \to \ell_2$ ).
- Eles demonstram que as normas clássicas $p \to q$ (com $p \le q$ ) não garantem estabilidade independente da largura devido a coeficientes de incompatibilidade entre camadas que crescem com a dimensão.
Solução Proposta: Normas de Operadores Normalizadas pela Média:
- Introduzem uma nova família de normas: $(p, \text{mean}) \to (q, \text{mean})$ .
- Definição: $\| \mathbf{x} \|_{(p, \text{mean})} = n^{-1/p} \| \mathbf{x} \|_p$ .
- Propriedade Chave: A normalização pela média ( $n^{-1/p}$ ) cancela o escalonamento dimensional, garantindo que a norma de identidade entre camadas adjacentes seja $\le 1$ . Isso permite a composição estável de limites de Lipschitz e suavidade através de múltiplas camadas, independentemente da largura $w$ .
Análise Teórica:
- Teorema 1 (Lipschitz): Prova que, sob a geometria $(p, \text{mean}) \to (q, \text{mean})$ , a função de perda é Lipschitz contínua com uma constante independente da largura.
- Teorema 2 (Suavidade $L$ ): Analisa a constante de suavidade (curvatura). Mostra que a suavidade é independente da largura se $q \ge 2p$ $q \geq 2 p$ .
  - Caso Muon: Corresponde a $(2, \text{mean}) \to (2, \text{mean})$ . A teoria revela que a constante de suavidade cresce como $O(\sqrt{w})$ , o que pode levar a instabilidades em larguras grandes.
  - Novas Geometrias: Geometrias como $(1, \text{mean}) \to (q, \text{mean})$ com $q \ge 2$ e $(p, \text{mean}) \to \infty$ garantem suavidade independente da largura.
Otimizador MOGA:
- Derivam uma regra de escalonamento de taxa de aprendizado "consciente da largura" (MOGA - Matrix Operator Geometry Aware).
- A regra de escalonamento absorve os fatores de dimensão nas atualizações de gradiente (normalização por linha ou coluna).
- Mostra-se que, em casos específicos (Adam/SignSGD), essa regra coincide com a regra de escalonamento $\mu$ P, mas derivada de uma perspectiva geométrica de otimização (controle de Lipschitz e suavidade) em vez de apenas preservação de características de aprendizado.

3. Contribuições Principais

Unificação Geométrica: Estabelece um quadro teórico unificado onde diversos otimizadores são vistos como descida de íngreme sob normas de operadores matriciais.
Identificação de Limitações do Muon: Demonstra teoricamente que o otimizador Muon, embora popular, sofre de um crescimento na constante de suavidade de ordem $O(\sqrt{w})$ , o que pode limitar sua estabilidade em larguras extremas.
Novas Geometrias Estáveis: Propõe e prova a estabilidade de geometrias baseadas em normalização de linha ( $(p, \text{mean}) \to \infty$ ) e normalização de coluna ( $(1, \text{mean}) \to (q, \text{mean})$ ) que garantem limites de suavidade e Lipschitz independentes da largura.
Otimizador MOGA: Apresenta o MOGA, um otimizador prático baseado apenas em normalizações de linha/coluna, que permite a transferência direta de hiperparâmetros entre modelos de tamanhos diferentes.
Compreensão do Trade-off: Analisa o compromisso entre a capacidade de aproximação e a suavidade da otimização. Conclui que a normalização de linha oferece um equilíbrio melhor, restringindo menos o espaço de parâmetros (mantendo a capacidade representacional) enquanto garante suavidade independente da largura, comparado à normalização de coluna.

4. Resultados Experimentais

Os autores validaram a teoria através de pré-treinamento em larga escala em arquiteturas GPT-2 e LLaMA.

Transferência de Taxa de Aprendizado:
- Modelos com tamanhos drasticamente diferentes (de GPT-2 Small a GPT-XL) alcançaram o melhor desempenho com quase a mesma taxa de aprendizado pico quando usando MOGA com normalização de linha.
- Isso elimina a necessidade de re-ajuste extensivo de hiperparâmetros ao escalar o modelo.
- A invariância foi observada mesmo para $p=3$ , um caso que não satisfaz as suposições espectrais tradicionais do $\mu$ P, provando a generalidade da abordagem.
Eficiência de Treinamento (Orçamento de Tokens Padrão e Grande):
- Orçamento Padrão (~1x Chinchilla): MOGA com normalização de linha foi competitivo com Muon e AdamW, convergindo mais rápido que AdamW.
- Orçamento Grande (~8x Chinchilla): MOGA demonstrou uma vantagem clara nas fases finais do treinamento e no regime de baixa perda (low-loss).
- Em particular, MOGA superou Muon em estágios avançados de treinamento em modelos LLaMA-130M, sugerindo maior estabilidade quando a otimização se torna crítica.

5. Significado e Impacto

Fundação Teórica para Escalonamento: O trabalho fornece uma base teórica rigorosa baseada em geometria de otimização (Lipschitz e suavidade) para o escalonamento de hiperparâmetros, indo além das heurísticas ou análises de inicialização infinita.
Alternativa ao Muon: Oferece uma alternativa teoricamente mais robusta ao Muon para arquiteturas muito largas, resolvendo o problema da instabilidade de suavidade $O(\sqrt{w})$ .
Eficiência Operacional: A capacidade de transferir taxas de aprendizado de modelos pequenos para grandes sem re-ajuste reduz significativamente o custo computacional e o tempo de desenvolvimento no treinamento de LLMs (Large Language Models).
Direção Futura: Sugere que a normalização de linha (Row Normalization) é uma estratégia preferível para otimizadores de larga escala, equilibrando estabilidade de otimização e capacidade de representação do modelo.

Em resumo, o artigo demonstra que a escolha da geometria de otimização (via normas de operadores) é crucial para o escalonamento estável de redes neurais, propondo o MOGA como uma solução prática e teoricamente fundamentada para o futuro do treinamento de modelos de grande escala.

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

1. O Problema: A Escada Quebrada

2. A Solução: A "Regra da Média" (Mean Normalization)

3. O Novo Método: MOGA

4. A Batalha dos Gigantes: MOGA vs. Muon

Resumo em uma Frase

Resumo Técnico: Escalonamento de Largura de Otimizadores Neurais sob Normas de Operadores Matriciais

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models