Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs

El artículo propone Generalized Primal Averaging (GPA), un optimizador que unifica y mejora métodos como DiLoCo y Schedule-Free mediante un promediado exponencial suave, logrando una mayor velocidad de entrenamiento y menor uso de memoria en modelos de lenguaje grandes y cargas de trabajo de visión por computadora, al tiempo que mantiene garantías teóricas de convergencia.

Aaron Defazio, Konstantin Mishchenko, Parameswaran Raman, Hao-Jun Michael Shi, Lin Xiao

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que entrenar una Inteligencia Artificial gigante (como un modelo de lenguaje) es como enseñar a un estudiante muy talentoso pero distraído a resolver un problema matemático complejo.

El problema es que el estudiante se cansa, se confunde con los detalles pequeños y a veces toma caminos equivocados. Los "optimizadores" son como los técnicos de estudio que le dicen al estudiante cómo organizar sus apuntes y cuándo tomar descansos para aprender más rápido.

Aquí te explico el descubrimiento de este paper (GPA) usando una analogía sencilla:

1. El Problema: El "Método DiLoCo" (El Entrenador Estricto)

Antes de este nuevo método, existía una técnica llamada DiLoCo. Imagina que DiLoCo es un entrenador que hace lo siguiente:

  • Deja que el estudiante haga 32 ejercicios seguidos sin parar (pasos internos) basándose en sus propias ideas.
  • Luego, el entrenador revisa esos 32 ejercicios, calcula un "promedio" de lo que salió mal y le da una corrección gigante al estudiante.
  • El problema: Es como si el estudiante estuviera trabajando en silencio durante mucho tiempo y luego, de repente, el entrenador le grita una corrección. Es un proceso con "saltos". Además, el entrenador necesita tener dos copias de los apuntes del estudiante (una para los ejercicios y otra para la corrección), lo cual ocupa mucho espacio en la memoria de la computadora.

2. La Solución: GPA (El Mentor Suave y Constante)

Los autores proponen GPA (Promedio Primal Generalizado). Imagina que GPA es un mentor más sabio que usa una técnica diferente:

  • En lugar de dejar que el estudiante trabaje en silencio y luego corregir de golpe, el mentor corrige suavemente en cada paso.
  • GPA toma dos ideas clave:
    1. Suavizar el camino: En lugar de saltos bruscos, GPA mezcla la información nueva con la antigua de forma continua (como un filtro de video que suaviza las imágenes).
    2. Desacoplar los controles: DiLoCo usaba un solo botón para controlar todo. GPA tiene dos botones separados: uno para decidir dónde el estudiante mira (para calcular el error) y otro para decidir cómo se actualizan sus apuntes finales.

3. La Analogía del "Caminante en la Niebla"

Imagina que el estudiante es un caminante en una niebla densa (el problema de entrenamiento) que quiere llegar al valle más bajo (la solución perfecta).

  • El método antiguo (DiLoCo): El caminante da 32 pasos a ciegas, luego se detiene, mira hacia atrás, calcula dónde debería estar y da un paso gigante hacia allá. Es eficiente, pero a veces se desalinea y necesita mucha memoria para recordar esos 32 pasos.
  • El nuevo método (GPA): El caminante tiene un "fantasma" (una versión suavizada de sí mismo). En cada paso, el caminante real se mueve un poco, pero el fantasma lo guía suavemente. No hay saltos bruscos. El caminante avanza de forma más fluida y estable, como si estuviera patinando sobre hielo en lugar de tropezar en piedras.

¿Por qué es mejor GPA? (Los Beneficios)

  1. Más Rápido: En los experimentos, GPA logró llegar al objetivo un 8% a un 10% más rápido que los métodos anteriores. Es como llegar a la meta en 10 minutos en lugar de 11.
  2. Menos Memoria: DiLoCo necesitaba guardar dos copias completas de los apuntes del estudiante. GPA es tan inteligente que solo necesita guardar una copia extra (o incluso menos, dependiendo de cómo se configure). Es como si el estudiante pudiera hacer sus cálculos en una sola hoja de papel en lugar de necesitar dos cuadernos.
  3. Más Estable: Al no tener esos "saltos" bruscos, el entrenamiento es más suave. No hay momentos en los que el modelo se confunde y pierde progreso.

En Resumen

Este paper nos dice que no necesitamos esperar a hacer muchos pasos para corregirnos. Podemos corregirnos un poquito en cada instante de forma inteligente.

GPA es como cambiar de un sistema de "revisión semanal" (donde te dicen todo lo que hiciste mal de golpe) a un sistema de "feedback en tiempo real" (donde te corrigen suavemente mientras trabajas). El resultado es que aprendes más rápido, te cansas menos (menos memoria) y llegas a la meta con más seguridad.

¡Y lo mejor es que esto funciona tanto para modelos de texto (como Llama) como para modelos de visión por computadora (como reconocer gatos en fotos)!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →