The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Este artigo demonstra que otimizadores baseados em momento, como Adam e Muon, aplicados a redes neurais homogêneas suaves, exibem um viés implícito que os leva a trajetórias aproximadas de descida mais íngreme, maximizando margens sob diferentes normas dependendo da escolha do otimizador.

Eitan Gronich, Gal Vardi

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando encontrar o caminho mais rápido para descer uma montanha muito alta e cheia de neblina. Essa montanha é o seu problema de aprendizado de máquina (como ensinar uma IA a reconhecer gatos), e o "caminho" é o conjunto de ajustes que você faz nos parâmetros do modelo.

O objetivo final não é apenas chegar ao fundo do vale (onde o erro é zero), mas chegar lá de uma forma específica: encontrando o caminho mais "seguro" e "robusto". Na linguagem da matemática, isso significa maximizar a "margem" — ou seja, garantir que a IA não apenas acerte, mas acerte com uma grande folga de segurança, longe das bordas perigosas onde ela poderia errar.

Este artigo é como um manual de instruções para diferentes tipos de "alpinistas" (os otimizadores) que usamos para descer essa montanha. Os autores descobriram que, mesmo que você não diga explicitamente ao alpinista para buscar a margem mais segura, a forma como ele anda (o algoritmo) faz com que ele naturalmente termine no lugar certo. Isso é chamado de "viés implícito".

Vamos conhecer os personagens desta história:

1. O Alpinista Clássico (Gradiente Descendente)

Imagine um alpinista que olha para o chão e dá um passo na direção mais íngreme para baixo.

  • O que a gente sabia antes: Se ele usar uma régua comum (chamada norma L2), ele sempre vai terminar no ponto que maximiza a margem usando essa régua. É como se ele fosse "viciado" em encontrar o caminho mais reto e seguro.

2. O Alpinista com "Momentum" (Muon e Signum)

Agora, imagine que esses alpinistas têm um impulso. Eles não param a cada passo; eles carregam um pouco da velocidade do passo anterior. É como andar de bicicleta: você não vira a direção instantaneamente; você tem um "arrasto" que mantém você indo na mesma direção por um tempo.

  • Muon (O Alpinista Espectral): Este é um alpinista muito sofisticado que olha para a estrutura da montanha de uma forma especial (usando "normas espectrais"). O artigo mostra que, se ele der passos cada vez menores (uma taxa de aprendizado que diminui com o tempo), ele vai acabar maximizando a margem baseada nessa estrutura complexa. É como se ele estivesse desenhando um mapa 3D da montanha e escolhendo o caminho que melhor se encaixa na geometria dela.
  • Signum (O Alpinista de Sinal): Este alpinista é mais simples. Ele só olha se o caminho é para cima ou para baixo (positivo ou negativo), ignorando a força do passo. Ele acaba maximizando a margem baseada no "pior caso" (norma L-infinity), garantindo que nem um único ponto da montanha o derrube.

3. O Alpinista Adaptativo (Adam)

O Adam é o alpinista mais famoso e usado hoje em dia. Ele é super inteligente: ele ajusta o tamanho do passo e a direção para cada perna separadamente, baseando-se no histórico de onde ele já pisou.

  • A Grande Descoberta: Antes, achavam que o Adam era um pouco caótico. Mas o artigo prova que, se ele usar uma taxa de aprendizado que diminui com o tempo, ele se comporta quase exatamente como o Signum (o alpinista de sinal). Ou seja, ele também tem um "viés" para encontrar o caminho mais seguro, maximizando a margem no pior cenário possível.

A Analogia da "Bússola Invisível"

Pense nesses algoritmos como carros que têm uma bússola invisível.

  • Você não precisa programar o carro dizendo: "Vá para o ponto de margem máxima".
  • O motor do carro (o algoritmo de momento ou a adaptação do Adam) faz com que, naturalmente, o carro termine estacionado no lugar mais seguro da estrada.
  • O artigo mostra que, dependendo do motor (Adam, Muon, Signum), a bússola aponta para direções ligeiramente diferentes, mas todas elas levam a um lugar "bom" (um ponto de equilíbrio matemático chamado KKT).

O Que Isso Significa na Vida Real?

  1. Por que as IAs funcionam tão bem? Mesmo sem regras extras para evitar erros, o simples fato de usarmos esses otimizadores (como Adam ou Muon) faz com que a IA aprenda de forma mais robusta e generalizável.
  2. Escolha do Otimizador: Se você quer que sua IA seja super segura contra erros raros, talvez o Adam seja ótimo. Se você tem uma estrutura de dados muito específica (como matrizes grandes), o Muon pode ser a escolha perfeita.
  3. A Regra de Ouro: Para que essa "bússola" funcione, o alpinista precisa desacelerar no final da descida (a taxa de aprendizado deve diminuir). Se ele correr o tempo todo, ele pode passar direto pelo ponto ideal.

Resumo em uma frase

Este artigo prova que otimizadores modernos e populares (como Adam e Muon) não são apenas ferramentas para minimizar erros; eles são arquitetos invisíveis que, por natureza, constroem modelos de Inteligência Artificial que são mais seguros, robustos e generalizáveis, escolhendo automaticamente o melhor caminho possível na paisagem complexa de dados.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →