Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs

O artigo propõe a Média Primal Generalizada (GPA), uma extensão do método de Nesterov que unifica otimizadores baseados em média como DiLoCo e Schedule-Free, eliminando a complexidade de memória do DiLoCo e demonstrando empiricamente ganhos de velocidade significativos no treinamento de LLMs e modelos ViT, além de garantir teoricamente convergência equivalente ou superior.

Aaron Defazio, Konstantin Mishchenko, Parameswaran Raman, Hao-Jun Michael Shi, Lin Xiao

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente (o nosso modelo de Inteligência Artificial) a escrever histórias ou resolver problemas complexos. Para isso, você precisa ajustar os "pesos" do cérebro dele milhões de vezes. O processo de fazer esses ajustes é chamado de otimização.

Até agora, a maneira mais comum de fazer isso era como um aluno que lê uma página, tenta entender, erra um pouco, corrige, e repete. Às vezes, ele fica muito lento ou "trava" em caminhos errados.

Os pesquisadores do Meta criaram uma nova técnica chamada GPA (Média Primal Generalizada). Para entender como ela funciona e por que é melhor, vamos usar algumas analogias do dia a dia.

1. O Problema: O "DiLoCo" e o Aluno que Pula de Galho em Galho

Antes do GPA, existia um método chamado DiLoCo. Imagine que o DiLoCo é como um aluno que estuda em dois ritmos diferentes:

  • Ritmo Rápido (Interno): Ele lê várias páginas rapidamente, faz anotações rápidas e cria uma "ideia provisória" do que aprendeu.
  • Ritmo Lento (Externo): Só depois de ler 32 páginas (ou mais) ele para, olha para o caderno, compara com a ideia anterior e decide mudar a forma como estuda.

O problema: Essa mudança só acontece de tempos em tempos. É como se o aluno pulasse de um galho de árvore para outro. Entre um pulo e outro, ele fica "no ar", sem direção clara. Isso faz o aprendizado ser um pouco "travado" e desajeitado. Além disso, o aluno precisa guardar duas versões do caderno na memória (uma rápida e uma lenta), o que gasta muita energia do computador.

2. A Solução: O GPA é como um "Navegador Suave"

O GPA resolve isso mudando a forma como o aluno aprende. Em vez de pular de galho em galho, o GPA faz o aluno ajustar sua rota a cada passo, de forma contínua e suave.

Pense no GPA como um GPS inteligente:

  • O GPS (GPA): Ele não espera você chegar em um ponto distante para dizer "vire à esquerda". Ele olha para onde você está, para onde você foi e para onde quer ir, e ajusta a direção suavemente a cada segundo.
  • A Mágica: O GPA usa uma técnica chamada "Média Primal". Em vez de apenas somar os erros e corrigir de uma vez só, ele cria uma média móvel. É como se ele dissesse: "Ok, você errou um pouco aqui, mas lembre-se do que você fez bem antes. Vamos fazer uma média ponderada para ir para frente."

3. A Diferença Chave: Otimizar a "Suavidade"

A grande inovação do GPA é que ele desacopla duas coisas que antes estavam presas:

  1. Onde o aluno olha para calcular o erro (o ponto de leitura).
  2. Onde o aluno atualiza a sua memória (o ponto de aprendizado).

No método antigo (DiLoCo), essas duas coisas estavam amarradas. Se você queria que o aluno fosse mais "suave" na memória, ele tinha que ler menos páginas, o que deixava o aprendizado lento.
No GPA, você pode ter o aluno lendo muitas páginas (para ter uma visão ampla) e, ao mesmo tempo, atualizando a memória dele de forma super suave e constante. É como ter um piloto automático que ajusta a direção mil vezes por segundo, mantendo o avião estável, mesmo com turbulência.

4. Os Resultados: Mais Rápido e Mais Leve

Os testes mostraram que o GPA é um vencedor claro:

  • Velocidade: Em modelos de linguagem (como o Llama), o GPA conseguiu chegar ao mesmo nível de inteligência que os métodos antigos, mas usando menos passos. É como chegar ao destino em 10% menos tempo de viagem.
  • Memória: O GPA precisa guardar menos "cadernos" na memória do computador. Isso é crucial porque modelos de IA gigantes precisam de muita memória RAM. O GPA é mais econômico, permitindo treinar modelos maiores sem precisar de computadores ainda mais caros.
  • Estabilidade: A curva de aprendizado é mais lisa. Não há aqueles "pulos" bruscos que confundem o modelo.

Resumo em uma Frase

O GPA é como substituir um carro que anda dando "arrancadas e freadas" (métodos antigos) por um carro com suspensão magnética e direção assistida: ele chega ao mesmo lugar, mas de forma mais rápida, mais suave e gastando menos combustível (memória do computador).

Para o futuro da Inteligência Artificial, isso significa que poderemos treinar modelos mais inteligentes, mais rápido e com menos custo, tornando a tecnologia mais acessível e eficiente.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →