Adam Converges Without Any Modification On Update Rules

Este artigo demonstra teoricamente que o otimizador Adam converge sem modificações em suas regras de atualização, desde que os hiperparâmetros β1\beta_1 e β2\beta_2 sejam ajustados de forma dependente do problema e do tamanho do lote, estabelecendo uma transição de fase entre divergência e convergência que explica o sucesso prático do algoritmo em modelos de linguagem.

Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô (uma Inteligência Artificial) a andar. O Adam é o método mais famoso e usado para ensinar esse robô. Ele funciona como um guia experiente que olha para o terreno, ajusta o passo do robô e tenta levá-lo ao ponto mais baixo de um vale (o melhor resultado possível).

Por anos, os cientistas usaram o Adam com sucesso. Mas, em 2018, um estudo famoso disse: "Cuidado! Em certas situações, esse guia pode levar o robô a cair de um penhasco infinito". Isso assustou muita gente e fez com que criassem versões modificadas do Adam para tentar consertar o problema.

No entanto, na vida real, as pessoas continuam usando o Adam original (sem modificações) e ele funciona muito bem, inclusive para treinar os maiores modelos de linguagem do mundo (como o GPT).

O que este novo artigo descobriu?
Os autores deste trabalho resolveram esse mistério. Eles descobriram que não há contradição: o Adam não precisa ser modificado para funcionar. O segredo está em como escolhemos os "ajustes" (chamados de hiperparâmetros β1\beta_1 e β2\beta_2).

Vamos usar uma analogia simples para entender o que eles provaram:

1. O Dilema do Guia de Montanha

Imagine que o Adam é um guia de montanha que usa dois tipos de memória para decidir o caminho:

  • Memória de Curto Prazo (β1\beta_1): Lembra dos passos recentes.
  • Memória de Longo Prazo (β2\beta_2): Lembra da inclinação geral do terreno ao longo de todo o caminho.

O estudo de 2018 disse: "Se você usar qualquer combinação desses dois tipos de memória, existe algum terreno onde o guia vai se perder".
O problema: Eles escolheram o terreno depois de escolherem a memória. Era como dizer: "Escolha qualquer tipo de óculos, e eu vou desenhar um labirinto onde esses óculos não funcionam".

A descoberta deste novo artigo:
Na vida real, nós escolhemos o terreno (o problema) primeiro e depois ajustamos os óculos (os parâmetros). Os autores provaram que, se você ajustar os óculos corretamente para o terreno específico, o guia nunca vai se perder.

2. A Regra de Ouro: O "Filtro de Longo Prazo" (β2\beta_2)

A parte mais importante da descoberta é sobre o parâmetro β2\beta_2 (a memória de longo prazo).

  • O Perigo (Região Vermelha): Se o valor de β2\beta_2 for muito baixo (o guia tem pouca memória de longo prazo), ele fica confuso. Ele olha apenas para o passo imediato, ignora o contexto e pode começar a correr em círculos ou escalar um penhasco infinito. É como tentar dirigir um carro olhando apenas para o capô, sem olhar para a estrada à frente.
  • A Segurança (Região Azul): Se o valor de β2\beta_2 for alto (o guia tem uma memória de longo prazo forte), ele consegue ver o panorama. Ele sabe que, mesmo que o terreno pareça íngreme agora, a tendência geral é descer. Com essa memória forte, o guia encontra o caminho seguro, não importa o terreno.

A Analogia do Trânsito:
Pense no Adam como um motorista em uma cidade cheia de buracos.

  • Se o motorista tem pouca memória (baixo β2\beta_2), ele freia bruscamente a cada buraco, perde o controle e pode bater no muro.
  • Se o motorista tem boa memória (alto β2\beta_2), ele lembra que a rua inteira é cheia de buracos e ajusta a velocidade suavemente, mantendo o carro estável e chegando ao destino.

3. O Segredo do Tamanho do "Bolo" (Batch Size)

O artigo também descobriu uma regra prática muito importante para quem treina Inteligência Artificial hoje em dia:

  • Se você usa pequenos pedaços de dados (batch size pequeno, como comer um biscoito de cada vez), você precisa de um guia com muita memória (um β2\beta_2 alto, próximo de 0.999).
  • Se você usa grandes pedaços de dados (batch size grande, como comer um bolo inteiro de uma vez), você pode usar uma memória um pouco menor.

Por que isso importa?
Muitos pesquisadores de IA estão treinando modelos gigantes com poucos dados por vez (para economizar memória de computador). O artigo diz: "Ei, se vocês estão usando poucos dados, aumentem o valor de β2\beta_2!". E, de fato, quando eles fizeram isso, os modelos aprenderam muito melhor e mais rápido.

Resumo da Ópera

  1. O Adam não está quebrado: Ele funciona perfeitamente sem precisar de "gambiarras" ou modificações no código.
  2. O segredo é o ajuste: O problema não é o algoritmo, é a escolha dos parâmetros.
  3. A regra simples: Para evitar que a IA "desvie para o infinito", use um valor de β2\beta_2 alto (perto de 0.99 ou 0.999), especialmente se você estiver processando os dados em pequenos lotes.
  4. A transição: Existe uma linha invisível. De um lado, o algoritmo falha; do outro, ele converge perfeitamente. Os autores mapearam exatamente onde está essa linha.

Em suma, este trabalho limpou a poeira da teoria, mostrou que o Adam é robusto e deu aos engenheiros de IA um manual de instruções claro: "Se a IA não está aprendendo, aumente a memória de longo prazo (β2\beta_2)!".

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →