Scalable Training of Mixture-of-Experts Models with Megatron Core

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Publicado Tue, 10 Ma

📖 6 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando construir o maior e mais inteligente cérebro digital do mundo. Para isso, você precisa de uma arquitetura chamada Mixture of Experts (MoE), ou "Mistura de Especialistas".

Pense em uma grande empresa de consultoria. Em vez de ter um único funcionário super-humano que sabe fazer tudo (o que seria caro e lento), você contrata milhares de especialistas: um é ótimo em matemática, outro em poesia, outro em programação, outro em culinária. Quando chega um pedido (um "token" de texto), um Gerente de Roteamento (o Router) olha para o pedido e decide: "Ok, este problema de matemática precisa do Especialista em Álgebra e do Especialista em Estatística". Apenas esses dois trabalham; os outros 998 especialistas ficam descansando.

Isso é incrivelmente eficiente para o computador (ele gasta menos energia), mas cria um pesadelo logístico para os engenheiros da NVIDIA. O relatório que você leu, escrito pela equipe da NVIDIA, explica como eles resolveram esse pesadelo usando o Megatron Core.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: As "Três Paredes"

Quando você tenta treinar esses modelos gigantes, você esbarra em três barreiras físicas, como se estivesse tentando encher um balde com água enquanto o balde tem buracos:

A Parede da Memória (O Armazém): Mesmo que apenas 2 especialistas trabalhem por vez, você precisa ter todos os 256 especialistas (e seus cadernos de anotações) guardados na memória do computador ao mesmo tempo. É como ter que alugar um armazém gigante para guardar 10.000 ferramentas, mesmo que você só use 2 por dia. O balde transborda.
A Parede da Comunicação (O Trânsito): Como os especialistas estão espalhados em diferentes computadores (GPUs), o Gerente precisa enviar o pedido para o especialista certo. Se o especialista está em outro prédio, o pedido tem que viajar por cabos. Se houver muitos pedidos indo para lugares diferentes ao mesmo tempo, o trânsito fica congestionado. O computador fica parado esperando a mensagem chegar.
A Parede da Eficiência de Cálculo (O Motor): Os especialistas são muito pequenos e rápidos. O computador (GPU) é como um caminhão de carga gigante. Se você só colocar uma caixa pequena (um cálculo de um especialista) nele, o caminhão viaja quase vazio. É um desperdício de combustível. Além disso, o "motorista" (o processador principal) fica cansado de ligar e desligar o caminhão para cada pequena caixa.

2. A Solução: O "Dobramento de Paralelismo" (Parallel Folding)

Antes, os engenheiros eram forçados a usar a mesma estratégia para todas as partes do cérebro. Era como tentar usar o mesmo mapa de trânsito para uma cidade densa e para uma estrada deserta.

A NVIDIA criou uma técnica genial chamada Parallel Folding (Dobramento de Paralelismo).

A Analogia: Imagine que a parte de "Atenção" (que lê o texto) gosta de estar em um grupo pequeno e unido (como uma equipe de rugby). Já a parte dos "Especialistas" (MoE) prefere estar espalhada em muitos grupos diferentes para não se chocarem.
A Inovação: O Megatron Core permite que você use um mapa de trânsito para a equipe de rugby e um mapa totalmente diferente para os especialistas. Eles não precisam mais ficar presos às mesmas regras. Isso permite que o sistema cresça para milhares de GPUs sem quebrar.

3. Como Eles Quebraram as Paredes

Quebrando a Parede da Memória

Recomputação Inteligente: Em vez de guardar todas as anotações do especialista na memória (o que ocupa espaço), o sistema decide: "Vou jogar essas anotações fora e, se precisar delas depois, vou refazer o cálculo rápido". É como um cozinheiro que joga fora os ingredientes cortados e, se precisar, corta de novo, em vez de ter uma geladeira cheia de ingredientes prontos.
Precisão Reduzida (FP8/FP4): Em vez de usar números com 16 casas decimais (muito precisos, mas pesados), eles usam números com 8 ou até 4 casas. É como escrever um livro usando apenas letras maiúsculas e sem acentos: o texto fica menor e cabe mais páginas no mesmo livro, e o computador lê mais rápido, sem perder a "essência" da história.
Offloading (Mudança de Casa): Quando a memória da GPU acaba, eles movem temporariamente os dados "dormindo" para a memória do processador (CPU), como se guardasse caixas no porão enquanto trabalha na sala.

Quebrando a Parede da Comunicação

Entregadores Super-Rápidos (DeepEP e HybridEP): Eles criaram novos protocolos de envio de dados que são como drones de entrega que voam direto para a janela do especialista, ignorando o trânsito normal.
Esconder o Tempo de Espera: Enquanto um especialista está trabalhando em um pedido, o sistema já está enviando o próximo pedido para outro especialista. É como um maestro de orquestra: enquanto os violinos tocam, os trompetes já estão se preparando. O tempo de espera some.

Quebrando a Parede da Eficiência

Agrupamento (Grouped GEMM): Em vez de pedir para o caminhão ir buscar uma caixa de cada vez, eles agrupam todas as caixas dos especialistas em um único carregamento gigante. O caminhão viaja cheio e eficiente.
CUDA Graphs (O Roteiro Fixo): O computador gasta muita energia decidindo "o que fazer a seguir" a cada milissegundo. O Megatron cria um "roteiro fixo" (um gráfico) de todas as tarefas. É como ter um roteiro de filme pronto: o ator (GPU) não precisa pensar no que fazer, ele apenas executa a cena. Isso elimina o tempo de decisão do "motorista".

4. O Resultado: Treinando o Futuro

Com todas essas otimizações, a NVIDIA conseguiu treinar modelos gigantes (como o DeepSeek-V3 com 685 bilhões de parâmetros) de forma extremamente rápida e eficiente.

No hardware mais novo (GB300/GB200): Eles atingiram velocidades que seriam impensáveis antes, processando trilhões de operações por segundo.
Para o Longo Prazo: Eles também resolveram como treinar modelos que leem livros inteiros de uma vez (contexto longo), onde a parte de "leitura" (atenção) domina o trabalho, exigindo estratégias diferentes das usadas para os especialistas.

Resumo Final

Este relatório é o "manual de instruções" de como transformar um caos logístico (milhares de especialistas trabalhando em diferentes computadores) em uma máquina de precisão suíça.

A NVIDIA não apenas construiu o motor (o hardware), mas redesenhou todo o sistema de trânsito, armazéns e gestão de tempo (o software) para garantir que, quando você pedir para o computador "pensar", ele faça isso com a máxima velocidade, sem gastar energia à toa e sem estourar o orçamento de memória. É a engenharia de sistemas no seu nível mais sofisticado, explicada para que qualquer pessoa possa entender a lógica por trás da magia da Inteligência Artificial moderna.

Scalable Training of Mixture-of-Experts Models with Megatron Core

1. O Problema: As "Três Paredes"

2. A Solução: O "Dobramento de Paralelismo" (Parallel Folding)

3. Como Eles Quebraram as Paredes

Quebrando a Parede da Memória

Quebrando a Parede da Comunicação

Quebrando a Parede da Eficiência

4. O Resultado: Treinando o Futuro

Resumo Final

Resumo Técnico: Treinamento Escalável de Modelos Mixture-of-Experts (MoE) com Megatron Core

1. O Problema

2. Metodologia e Arquitetura

2.1. Paralelismo Multidimensional e "Parallel Folding"

2.2. Quebrando a Parede de Memória

2.3. Quebrando a Parede de Comunicação

2.4. Quebrando a Parede de Eficiência de Computação

2.5. Treinamento de Longo Contexto e RL

3. Principais Contribuições

4. Resultados de Desempenho

5. Significado e Impacto

Scalable Training of Mixture-of-Experts Models with Megatron Core

1. O Problema: As "Três Paredes"

2. A Solução: O "Dobramento de Paralelismo" (Parallel Folding)

3. Como Eles Quebraram as Paredes

Quebrando a Parede da Memória

Quebrando a Parede da Comunicação

Quebrando a Parede da Eficiência

4. O Resultado: Treinando o Futuro

Resumo Final

Resumo Técnico: Treinamento Escalável de Modelos Mixture-of-Experts (MoE) com Megatron Core

1. O Problema

2. Metodologia e Arquitetura

2.1. Paralelismo Multidimensional e "Parallel Folding"

2.2. Quebrando a Parede de Memória

2.3. Quebrando a Parede de Comunicação

2.4. Quebrando a Parede de Eficiência de Computação

2.5. Treinamento de Longo Contexto e RL

3. Principais Contribuições

4. Resultados de Desempenho

5. Significado e Impacto

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models