Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Pubblicato Tue, 10 Ma

📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire un grattacielo altissimo (un'intelligenza artificiale gigante) per risolvere problemi complessi. Fino a poco tempo fa, l'approccio era quello di assumere un solo architetto super-competente che doveva gestire ogni singolo mattone, ogni finestra e ogni tubo dell'edificio. Questo architetto era "denso": conosceva tutto, ma per costruire un edificio enorme, dovevi assumere migliaia di questi architetti, rendendo il processo lentissimo e costosissimo.

Il paper che hai condiviso parla di un nuovo approccio rivoluzionario: Mixture-of-Experts (MoE), o "Miscela di Esperti".

Ecco la spiegazione semplice, usando metafore quotidiane, di come NVIDIA ha risolto i problemi per costruire questi "grattacieli" di intelligenza artificiale in modo veloce ed efficiente.

1. Il Concetto Base: L'Ufficio con gli Specialisti

Invece di avere un solo architetto che fa tutto, immagina un grande ufficio con centinaia di specialisti (gli "Esperti").

Come funziona: Quando arriva un compito (un "token", ovvero una parola o un concetto), un Portiere (il Router) guarda il compito e decide quale specialista è il migliore per farlo.
Il vantaggio: Se il compito è "scrivere una poesia", il portiere chiama solo l'esperto di poesia. Se è "calcolare un'equazione", chiama l'esperto di matematica.
Il risultato: L'ufficio può avere milioni di specialisti (un modello enorme), ma per ogni singolo compito ne attiva solo pochi. È come avere un'intera università di professori, ma per ogni esame ne usa solo due. Questo rende il modello intelligente ma leggero da eseguire.

2. Il Problema: I Tre "Muri" che Bloccano tutto

Costruire questo ufficio gigante su migliaia di computer (GPU) è un incubo logistico. I ricercatori hanno identificato tre muri che bloccano il progresso:

🧱 Muro 1: La Memoria (Il Muro dello Stoccaggio)

Immagina di dover tenere in mano i manuali di tutti gli specialisti. Anche se ne usi solo pochi alla volta, devi avere tutti i manuali sul tavolo perché non sai chi verrà chiamato dopo.

Il problema: I manuali sono così tanti che non entrano nella memoria dei computer.
La soluzione NVIDIA: Hanno inventato trucchi magici.
- Riciclo: Invece di tenere i manuali aperti, li chiudono e li riaprono solo quando servono (Recomputation).
- Spostamento: Quando il tavolo è pieno, spostano i manuali meno usati su un armadio esterno (CPU) e li riportano solo quando servono.
- Compressione: Scrivono i manuali con una penna più sottile (precisione ridotta FP8/FP4), occupando meno spazio senza perdere dettagli importanti.

📡 Muro 2: La Comunicazione (Il Muro del Traffico)

Ogni volta che il portiere chiama uno specialista, deve passare un foglio da un computer all'altro. Se hai 256 specialisti sparsi su 256 computer, il portiere deve inviare fogli a tutti.

Il problema: I computer passano il tempo a scambiarsi fogli invece di lavorare. È come se gli operai di un cantiere passassero più tempo a correre per prendere i mattoni che a posarli.
La soluzione NVIDIA:
- Corrieri Veloci: Hanno creato nuovi corrieri (DeepEP e HybridEP) che corrono su strade speciali (NVLink) e sanno esattamente dove andare, evitando ingorghi.
- Lavoro in parallelo: Mentre un gruppo di specialisti sta lavorando, il portiere sta già preparando i fogli per il gruppo successivo. Non si aspetta mai, si sovrappone tutto.

⚙️ Muro 3: L'Efficienza del Calcolo (Il Muro della Lentezza)

Gli specialisti sono piccoli e veloci. Ma se devi chiamarne 256, il computer deve fare 256 piccoli calcoli separati.

Il problema: Il computer si stanca a fare tanti piccoli passi invece di pochi grandi. Inoltre, il "capo cantiere" (la CPU) deve dare ordini uno per uno, perdendo tempo a parlare invece di lavorare.
La soluzione NVIDIA:
- Gruppi: Invece di dare un ordine alla volta, raggruppano gli specialisti simili e fanno un unico grande calcolo (Grouped GEMM).
- Automazione: Una volta deciso il piano di lavoro, lo "registrano" e lo fanno ripetere in automatico senza dover chiedere ogni volta "cosa faccio ora?" alla CPU (CUDA Graphs).

3. La Magia Finale: "Parallel Folding" (Il Piegamento)

Fino a ieri, c'era una regola rigida: se volevi usare molti specialisti (Esperti), dovevi usare lo stesso numero di computer per tutto il resto dell'edificio. Era come dire: "Se hai 100 specialisti, devi avere 100 portieri". Questo era inefficiente.

NVIDIA ha introdotto il Parallel Folding.
Immagina di poter piegare la mappa del cantiere.

Puoi avere un reparto "Attenzione" (il portiere) che usa 4 computer.
Puoi avere un reparto "Esperti" (gli specialisti) che usa 64 computer.
E puoi farli lavorare insieme senza che si disturbino a vicenda.
È come avere un'auto con ingranaggi variabili: usi la marcia giusta per la salita (gli esperti) e quella giusta per la discesa (l'attenzione), invece di avere un'auto con una sola marcia fissa.

4. I Risultati: Quanto è veloce?

Grazie a questi trucchi, NVIDIA ha dimostrato che i loro computer (i nuovi chip GB200 e GB300) possono addestrare modelli giganteschi (come DeepSeek-V3 con 685 miliardi di parametri) a velocità incredibili.

Prima: Sarebbe stato come costruire un grattacielo a mano, un mattone alla volta.
Ora: È come avere un'autostrada dedicata, corrieri che volano e operai che lavorano in sincronia perfetta.

In Sintesi

Questo documento è la "guida del costruttore" per l'intelligenza artificiale del futuro. Spiega come superare gli ostacoli fisici (memoria, traffico, lentezza) per permettere a modelli di intelligenza artificiale di diventare enormi (con milioni di esperti) ma veloci ed economici da usare.

Non è solo teoria: queste tecniche sono già state usate per addestrare modelli reali che oggi stanno cambiando il mondo, rendendo possibile l'addestramento di intelligenze artificiali che prima sembravano impossibili da costruire.

Each language version is independently generated for its own context, not a direct translation.

Riassunto Tecnico: Scalable Training of Mixture-of-Experts Models with Megatron Core

1. Il Problema: Le Sfide del Training MoE su Larga Scala

L'adozione dei modelli Mixture of Experts (MoE) sta diventando lo standard per i Large Language Models (LLM) di prossima generazione (es. DeepSeek-V3, Qwen3), poiché permette di aumentare la capacità del modello (parametri totali) senza un aumento lineare del costo computazionale per token. Tuttavia, lo scaling del training MoE introduce sfide sistemiche uniche assenti nei modelli densi, derivanti dalla sparsità intrinseca dell'architettura.

Il documento identifica tre "Muri" fondamentali che limitano l'efficienza del training MoE:

Il Muro della Memoria (Memory Wall):
- Problema: Sebbene solo un sottoinsieme di esperti ( $K$ su $E$ ) sia attivo per token, tutti i parametri di tutti gli $E$ esperti, insieme ai loro stati dell'ottimizzatore e gradienti, devono risiedere in memoria GPU. Questo crea un disallineamento "Parametri-Computo": il modello ha centinaia di miliardi di parametri totali, ma ne attiva solo una frazione.
- Conseguenza: La pressione sulla memoria supera di gran lunga quella dei modelli densi equivalenti, rendendo impossibile il training su hardware standard senza ottimizzazioni aggressive.
Il Muro della Comunicazione (Communication Wall):
- Problema: L'uso dell'Expert Parallelism (EP) richiede comunicazioni all-to-all per instradare i token agli esperti corretti su diverse GPU.
- Conseguenza: Con l'aumento del numero di esperti e la distribuzione su più nodi, il volume di comunicazione satura la larghezza di banda (spesso passando da NVLink ad interconnessioni inter-nodo più lente), diventando il collo di bottiglia principale (fino al 60% del tempo di training).
Il Muro dell'Efficienza Computazionale (Compute Efficiency Wall):
- Problema: Gli esperti sono spesso piccoli, portando a operazioni GEMM (General Matrix Multiply) di dimensioni ridotte che non sfruttano appieno le unità di calcolo delle GPU. Inoltre, la sparsità e il routing dinamico introducono un elevato overhead di lancio dei kernel da parte della CPU (host overhead) e sincronizzazioni host-device.
- Conseguenza: Le GPU rimangono spesso inattive in attesa della CPU o di dati, riducendo drasticamente l'utilizzo delle risorse (MFU).

Un ulteriore ostacolo è il Disallineamento Densità-Sparsità: i layer di attenzione (densi) e i layer MoE (sparsi) richiedono configurazioni di parallelismo ottimali e conflittuali (es. alto Tensor Parallelism per l'attenzione vs alto Expert Parallelism per MoE), che i framework tradizionali non gestiscono bene.

2. Metodologia e Architettura Megatron-Core

NVIDIA presenta Megatron-Core MoE, uno stack di training open-source progettato per affrontare simultaneamente questi tre muri attraverso un design co-ottimizzato a livello di sistema.

A. Parallelismo Multi-Dimensionale e "Parallel Folding"

Per risolvere il disallineamento densità-sparsità, Megatron-Core introduce il Parallel Folding:

Decoupling: Permette di decouplare le mappature di parallelismo per i layer di attenzione e i layer MoE.
Flessibilità: L'attenzione può utilizzare un alto Tensor Parallelism (TP) e Context Parallelism (CP), mentre i layer MoE possono utilizzare un alto Expert Parallelism (EP) con TP=1 (per massimizzare l'efficienza GEMM), senza vincoli rigidi come $EP \le DP$ .
Vantaggio: Riduce i requisiti minimi di GPU e ottimizza l'uso della topologia hardware (mantenendo le comunicazioni ad alta larghezza di banda all'interno del dominio NVLink).

B. Ottimizzazioni per Rompere i Tre Muri

1. Superare il Muro della Memoria

Permutazione Efficiente (Memory-Efficient Permutation): Riorganizza i calcoli per eliminare tensori intermedi ridondanti senza overhead computazionale.
Training a Precisione Ridotta (FP8/FP4): Utilizza formati FP8 e NVFP4 per le attivazioni e i GEMM degli esperti, riducendo l'uso di memoria fino al 75%.
Recomputazione Fine-Granulare: Ricalcola solo le attivazioni più costose (es. funzioni di attivazione, LayerNorm) invece di interi layer, bilanciando memoria e compute.
Offloading Fine-Granulare: Sposta le attivazioni in memoria CPU quando necessario, sovrapponendo il trasferimento PCIe al calcolo GPU.
Ottimizzatori a Precisione Consapevole: Memorizza gli stati dell'ottimizzatore (momenti) in BF16/FP8 invece che FP32.
FSDP per MoE: Implementa una versione di Fully Sharded Data Parallelism che sharding i parametri degli esperti all'interno del gruppo EP, riducendo ulteriormente la memoria.

2. Superare il Muro della Comunicazione

Dispatcher Ottimizzati (DeepEP e HybridEP): Sostituisce le implementazioni NCCL standard con kernel specializzati (basati su TMA, IBGDA) che massimizzano la banda e riducono il traffico ridondante.
Sovrapposizione Comunicazione-Computo (Overlap): Utilizza uno schema 1F1B (Forward-Backward) avanzato e la tecnica W/D Split (separazione gradienti pesanti/dati) per nascondere la latenza all-to-all dietro il calcolo degli esperti.
Risultato: Riduce il tempo dedicato alla comunicazione da ~60% a <5% del tempo totale di iterazione.

3. Superare il Muro dell'Efficienza Computazionale

Grouped GEMM: Esegue i calcoli di più esperti in un singolo kernel o in stream multipli per migliorare l'utilizzo delle Tensor Core.
Fusione dei Kernel: Unisce operazioni di routing, permutazione e calcolo dell'auxiliary loss in kernel singoli per ridurre l'overhead di lancio.
CUDA Graphs: Cattura l'intero flusso di esecuzione in un grafo riutilizzabile, eliminando l'overhead della CPU per iterazioni successive.
Esecuzione Sync-Free per MoE senza Drop: Permette l'uso di CUDA Graphs anche con routing dinamico (dropless) attraverso:
- Kernels Iniziati dal Dispositivo: I kernel leggono le dimensioni dinamiche direttamente dalla GPU.
- ECHO (Elastic Cloning): Clona dinamicamente gli esperti "hot" per bilanciare il carico e ridurre la frammentazione della memoria.
- Paged Stashing: Gestisce la memoria in modo fine-granulare all'interno del grafo per evitare allocazioni eccessive basate sul caso peggiore.

C. Supporto per Contesti Lunghi e RL

Long-Context: Introduce Dynamic Context Parallelism (Dynamic-CP) e supporto per Packed Sequences per gestire sequenze variabili (fino a 128K+ token) senza sprechi di padding, adattando dinamicamente il grado di parallelismo in base alla lunghezza della sequenza.
Reinforcement Learning (RL): Integra funzionalità specifiche come il "Router Replay" (per garantire coerenza tra inferenza e training) e ottimizzazioni per carichi di lavoro con lunghezze di sequenza altamente variabili.

3. Risultati Sperimentali

Il framework è stato valutato su modelli di stato dell'arte (DeepSeek-V3-685B e Qwen3-235B) su hardware NVIDIA GB300, GB200 e H100.

Throughput Assoluto:
- DeepSeek-V3 (685B): Raggiunge 1.233 TFLOPS/GPU su GB300 e 1.048 TFLOPS/GPU su GB200. Su H100 (1024 GPU), ottiene 368 TFLOPS/GPU.
- Qwen3-235B: Raggiunge 974 TFLOPS/GPU su GB300 e 919 TFLOPS/GPU su GB200.
Efficienza: Le ottimizzazioni permettono di addestrare modelli con centinaia di miliardi di parametri su cluster di migliaia di GPU mantenendo un'alta efficienza (MFU).
Scalabilità: Il sistema dimostra una scalabilità quasi lineare e gestisce efficacemente configurazioni complesse (fino a 256 esperti, top-8 routing).
Contesto Lungo: Dimostrato un training efficiente su sequenze di 131K token con un throughput mantenuto alto (1.150 TFLOPS/GPU su GB300).

4. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale per l'industria dell'IA generativa:

Democratizzazione dei Modelli Trillion-Parameter: Fornisce uno stack open-source, pronto per la produzione, che rende fattibile l'addestramento di modelli MoE su scala trilionesima, un compito precedentemente limitato a pochi attori con risorse proprietarie.
Co-Design Sistema-Algoritmo: Dimostra che l'ottimizzazione dei modelli MoE non può essere solo algoritmica, ma richiede un'integrazione profonda tra architettura del modello, gestione della memoria, comunicazione di rete e scheduling dei kernel GPU.
Flessibilità Hardware: Le tecniche sviluppate (Parallel Folding, HybridEP, CUDA Graphs sync-free) sono essenziali per sfruttare appieno le nuove generazioni di hardware (Blackwell GB200/GB300) e per adattarsi a topologie di cluster eterogenee.
Supporto RL e Long-Context: Estende le capacità di training oltre il pre-training standard, abilitando scenari complessi come il Reinforcement Learning e l'elaborazione di contesti ultra-lunghi, cruciali per i modelli di ragionamento (Reasoning Models).

In sintesi, Megatron-Core MoE risolve le tre barriere fondamentali del training MoE attraverso un approccio sistematico e integrato, stabilendo nuovi standard di performance e scalabilità per l'addestramento di modelli linguistici di prossima generazione.

Scalable Training of Mixture-of-Experts Models with Megatron Core