Scalable Training of Mixture-of-Experts Models with Megatron Core

Este informe presenta Megatron Core, un marco de código abierto que aborda los desafíos de escalabilidad en el entrenamiento de modelos de expertos mezclados (MoE) mediante optimizaciones integradas en memoria, comunicación y computación, logrando un alto rendimiento en hardware NVIDIA GB300/GB200 para modelos desde miles de millones hasta billones de parámetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)

Publicado Tue, 10 Ma
📖 6 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este informe es el manual de instrucciones definitivo para construir y entrenar a los "gigantes" de la inteligencia artificial del futuro.

Aquí tienes la explicación de cómo NVIDIA está entrenando estos modelos masivos (llamados MoE o "Mezcla de Expertos") usando su tecnología Megatron Core, explicada como si estuviéramos hablando en una cafetería.


🧠 ¿Qué es un modelo "Mezcla de Expertos" (MoE)?

Imagina que tienes que resolver un problema muy difícil, como escribir un libro de historia o diagnosticar una enfermedad rara.

  • El modelo antiguo (Dense): Era como tener un solo genio en una habitación que intentaba saberlo todo. Para resolver cualquier cosa, ese genio tenía que pensar con toda su mente. Era lento y costoso.
  • El modelo nuevo (MoE): Es como tener una biblioteca gigante de especialistas. Hay un "recepcionista" (el enrutador) que, cuando llega una pregunta, la envía solo a los 2 o 3 expertos que realmente saben de ese tema.
    • Ejemplo: Si preguntas sobre "fútbol", el recepcionista llama al experto en deportes, no al experto en cocina.
    • La ventaja: Puedes tener miles de expertos (mucha inteligencia total) sin tener que hacer trabajar a todos al mismo tiempo (ahorro de energía).

🚧 El Gran Problema: Las "Tres Paredes"

Aunque esta idea suena genial, entrenar a miles de expertos a la vez es una pesadilla logística. El informe dice que hay tres paredes que intentan detenernos:

1. La Pared de la Memoria (El "Cerebro" se llena)

Imagina que cada experto necesita su propia libreta de notas. Si tienes 100 expertos, necesitas 100 libretas. Pero como solo trabajan 3 a la vez, ¡la mayoría de las libretas están guardadas en el armario!

  • El problema: Las tarjetas gráficas (GPUs) tienen un tamaño de armario limitado. Si intentas guardar las notas de todos los expertos, el armario explota.
  • La solución de NVIDIA:
    • Comprimir las notas: En lugar de escribir con tinta gruesa (precisión alta), escriben con tinta muy fina (FP8 o FP4), ahorrando espacio sin perder mucho detalle.
    • Reescribir en el momento: En lugar de guardar todas las notas intermedias, las borran y las vuelven a calcular si las necesitan después (como si un chef no guardara los ingredientes cortados, sino que los cortara de nuevo si hace falta).
    • Alquilar espacio extra: Si el armario se llena, mueven las libretas menos usadas a un trastero en la CPU (memoria del ordenador) y las traen solo cuando son necesarias.

2. La Pared de la Comunicación (El "Teléfono Roto")

Como los expertos están en diferentes habitaciones (diferentes tarjetas gráficas), el recepcionista tiene que correr para llevar las preguntas a cada uno y traer las respuestas.

  • El problema: Si hay 100 expertos en 100 habitaciones, el recepcionista pasa más tiempo corriendo que trabajando. Si las habitaciones están en edificios diferentes (diferentes servidores), el tiempo de viaje es enorme.
  • La solución de NVIDIA:
    • Carriles exclusivos: Han creado "autopistas" especiales (llamadas DeepEP y HybridEP) para que los mensajes viajen a la velocidad de la luz entre las tarjetas.
    • Hacer dos cosas a la vez: Mientras el recepcionista corre llevando una pregunta, el experto ya está trabajando en la anterior. Se superponen las tareas para que el tiempo de espera sea cero.

3. La Pared de la Eficiencia Computacional (El "Motor que se calienta")

Los expertos son muy pequeños y rápidos. A veces, el ordenador pasa más tiempo encendiendo y apagando el motor (lanzando instrucciones) que conduciendo.

  • El problema: Hay tantos expertos pequeños que el cerebro del ordenador (la CPU) se agota intentando dar órdenes a cada uno por separado.
  • La solución de NVIDIA:
    • Agrupar tareas: En lugar de pedirle a un experto que haga una tarea, le piden que haga 100 a la vez en un solo bloque.
    • Grabar un guion: Usan una técnica llamada CUDA Graphs que es como grabar un video de una coreografía perfecta. En lugar de que el director (CPU) grite "¡haz esto, luego aquello!" en cada repetición, simplemente le dice al equipo "¡Ejecuta el video!". Esto elimina el tiempo de espera.

🧩 El Truco Maestro: "El Doblaje de Paralelismo" (Parallel Folding)

Aquí viene la parte más ingeniosa. En un modelo grande, tienes dos tipos de capas:

  1. Capas de Atención: Necesitan ver todo el contexto (como leer todo un libro).
  2. Capas de Expertos: Necesitan dividir el trabajo en muchos trozos pequeños.

Antes, tenías que usar la misma estrategia para ambos, lo cual era como intentar usar el mismo mapa para conducir por una autopista y por un laberinto. No funcionaba bien.

La solución de NVIDIA: Han inventado el "Parallel Folding".
Imagina que tienes un equipo de construcción.

  • Para las capas de atención, organizas a los albañiles en grandes grupos grandes que trabajan juntos (alta eficiencia en grandes bloques).
  • Para las capas de expertos, divides al equipo en muchos grupos pequeños que trabajan en paralelo (alta eficiencia en tareas pequeñas).
  • El truco: Permiten que estos dos grupos usen diferentes mapas y estrategias al mismo tiempo dentro del mismo edificio. Esto permite escalar modelos de billones de parámetros sin que el sistema se rompa.

🏁 Los Resultados: ¿Qué tan rápido es?

Gracias a todas estas trucos, NVIDIA ha logrado entrenar modelos gigantes (como DeepSeek-V3 con 685 mil millones de parámetros) a velocidades increíbles:

  • En sus nuevas tarjetas GB300/GB200, logran una velocidad de procesamiento que es 3 veces más rápida que las tarjetas anteriores.
  • Han logrado entrenar modelos que antes tardarían años en meses, o incluso semanas.

🚀 ¿Y para qué sirve todo esto?

Esto no es solo para hacer chatbots más inteligentes. Esto permite:

  1. Modelos más baratos: Al ser más eficientes, cuestan menos dinero entrenarlos.
  2. Contextos largos: Pueden leer libros enteros o ver horas de video y recordar todo.
  3. Aprendizaje por Refuerzo: Ayuda a entrenar robots o agentes de IA que aprenden probando cosas (como jugar videojuegos o conducir coches) de forma mucho más rápida y estable.

En resumen

NVIDIA ha tomado un problema logístico imposible (entrenar a miles de expertos simultáneamente) y lo ha resuelto como un director de orquesta genial:

  1. Ahorra espacio comprimiendo las partituras.
  2. Mejora el tráfico creando autopistas para los músicos.
  3. Agrupar las notas para que la orquesta toque en bloque en lugar de nota por nota.
  4. Permite que cada sección (cuerdas vs. vientos) use su propio ritmo y partitura sin chocar.

El resultado es una máquina capaz de crear inteligencias artificiales que antes eran solo ciencia ficción.