Scalable Training of Mixture-of-Experts Models with Megatron Core

Questo documento presenta Megatron Core, un framework open-source che risolve le sfide del training scalabile dei modelli Mixture-of-Experts attraverso ottimizzazioni integrate per memoria, comunicazione e calcolo, consentendo addestramenti ad alte prestazioni su cluster di migliaia di GPU.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Pubblicato Tue, 10 Ma
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire un grattacielo altissimo (un'intelligenza artificiale gigante) per risolvere problemi complessi. Fino a poco tempo fa, l'approccio era quello di assumere un solo architetto super-competente che doveva gestire ogni singolo mattone, ogni finestra e ogni tubo dell'edificio. Questo architetto era "denso": conosceva tutto, ma per costruire un edificio enorme, dovevi assumere migliaia di questi architetti, rendendo il processo lentissimo e costosissimo.

Il paper che hai condiviso parla di un nuovo approccio rivoluzionario: Mixture-of-Experts (MoE), o "Miscela di Esperti".

Ecco la spiegazione semplice, usando metafore quotidiane, di come NVIDIA ha risolto i problemi per costruire questi "grattacieli" di intelligenza artificiale in modo veloce ed efficiente.

1. Il Concetto Base: L'Ufficio con gli Specialisti

Invece di avere un solo architetto che fa tutto, immagina un grande ufficio con centinaia di specialisti (gli "Esperti").

  • Come funziona: Quando arriva un compito (un "token", ovvero una parola o un concetto), un Portiere (il Router) guarda il compito e decide quale specialista è il migliore per farlo.
  • Il vantaggio: Se il compito è "scrivere una poesia", il portiere chiama solo l'esperto di poesia. Se è "calcolare un'equazione", chiama l'esperto di matematica.
  • Il risultato: L'ufficio può avere milioni di specialisti (un modello enorme), ma per ogni singolo compito ne attiva solo pochi. È come avere un'intera università di professori, ma per ogni esame ne usa solo due. Questo rende il modello intelligente ma leggero da eseguire.

2. Il Problema: I Tre "Muri" che Bloccano tutto

Costruire questo ufficio gigante su migliaia di computer (GPU) è un incubo logistico. I ricercatori hanno identificato tre muri che bloccano il progresso:

🧱 Muro 1: La Memoria (Il Muro dello Stoccaggio)

Immagina di dover tenere in mano i manuali di tutti gli specialisti. Anche se ne usi solo pochi alla volta, devi avere tutti i manuali sul tavolo perché non sai chi verrà chiamato dopo.

  • Il problema: I manuali sono così tanti che non entrano nella memoria dei computer.
  • La soluzione NVIDIA: Hanno inventato trucchi magici.
    • Riciclo: Invece di tenere i manuali aperti, li chiudono e li riaprono solo quando servono (Recomputation).
    • Spostamento: Quando il tavolo è pieno, spostano i manuali meno usati su un armadio esterno (CPU) e li riportano solo quando servono.
    • Compressione: Scrivono i manuali con una penna più sottile (precisione ridotta FP8/FP4), occupando meno spazio senza perdere dettagli importanti.

📡 Muro 2: La Comunicazione (Il Muro del Traffico)

Ogni volta che il portiere chiama uno specialista, deve passare un foglio da un computer all'altro. Se hai 256 specialisti sparsi su 256 computer, il portiere deve inviare fogli a tutti.

  • Il problema: I computer passano il tempo a scambiarsi fogli invece di lavorare. È come se gli operai di un cantiere passassero più tempo a correre per prendere i mattoni che a posarli.
  • La soluzione NVIDIA:
    • Corrieri Veloci: Hanno creato nuovi corrieri (DeepEP e HybridEP) che corrono su strade speciali (NVLink) e sanno esattamente dove andare, evitando ingorghi.
    • Lavoro in parallelo: Mentre un gruppo di specialisti sta lavorando, il portiere sta già preparando i fogli per il gruppo successivo. Non si aspetta mai, si sovrappone tutto.

⚙️ Muro 3: L'Efficienza del Calcolo (Il Muro della Lentezza)

Gli specialisti sono piccoli e veloci. Ma se devi chiamarne 256, il computer deve fare 256 piccoli calcoli separati.

  • Il problema: Il computer si stanca a fare tanti piccoli passi invece di pochi grandi. Inoltre, il "capo cantiere" (la CPU) deve dare ordini uno per uno, perdendo tempo a parlare invece di lavorare.
  • La soluzione NVIDIA:
    • Gruppi: Invece di dare un ordine alla volta, raggruppano gli specialisti simili e fanno un unico grande calcolo (Grouped GEMM).
    • Automazione: Una volta deciso il piano di lavoro, lo "registrano" e lo fanno ripetere in automatico senza dover chiedere ogni volta "cosa faccio ora?" alla CPU (CUDA Graphs).

3. La Magia Finale: "Parallel Folding" (Il Piegamento)

Fino a ieri, c'era una regola rigida: se volevi usare molti specialisti (Esperti), dovevi usare lo stesso numero di computer per tutto il resto dell'edificio. Era come dire: "Se hai 100 specialisti, devi avere 100 portieri". Questo era inefficiente.

NVIDIA ha introdotto il Parallel Folding.
Immagina di poter piegare la mappa del cantiere.

  • Puoi avere un reparto "Attenzione" (il portiere) che usa 4 computer.
  • Puoi avere un reparto "Esperti" (gli specialisti) che usa 64 computer.
  • E puoi farli lavorare insieme senza che si disturbino a vicenda.
    È come avere un'auto con ingranaggi variabili: usi la marcia giusta per la salita (gli esperti) e quella giusta per la discesa (l'attenzione), invece di avere un'auto con una sola marcia fissa.

4. I Risultati: Quanto è veloce?

Grazie a questi trucchi, NVIDIA ha dimostrato che i loro computer (i nuovi chip GB200 e GB300) possono addestrare modelli giganteschi (come DeepSeek-V3 con 685 miliardi di parametri) a velocità incredibili.

  • Prima: Sarebbe stato come costruire un grattacielo a mano, un mattone alla volta.
  • Ora: È come avere un'autostrada dedicata, corrieri che volano e operai che lavorano in sincronia perfetta.

In Sintesi

Questo documento è la "guida del costruttore" per l'intelligenza artificiale del futuro. Spiega come superare gli ostacoli fisici (memoria, traffico, lentezza) per permettere a modelli di intelligenza artificiale di diventare enormi (con milioni di esperti) ma veloci ed economici da usare.

Non è solo teoria: queste tecniche sono già state usate per addestrare modelli reali che oggi stanno cambiando il mondo, rendendo possibile l'addestramento di intelligenze artificiali che prima sembravano impossibili da costruire.