Scaling with Collapse: Efficient and Predictable Training of LLM Families

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que entrenar una Inteligencia Artificial (IA) gigante es como construir una ciudad desde cero.

Antes de este trabajo, los arquitectos (los científicos) tenían un problema enorme: cada vez que querían construir una ciudad más grande (un modelo de IA más potente), tenían que empezar de cero, adivinar los planos y esperar meses para ver si funcionaba. A veces, la ciudad se caía a pedazos a mitad de construcción y nadie sabía por qué hasta que era demasiado tarde.

Este paper, titulado "Escalando con Colapso" (Scaling with Collapse), presenta una forma mágica de predecir el futuro de estas ciudades. Aquí te lo explico con analogías sencillas:

1. El Gran Secreto: "El Colapso"

Imagina que tienes tres coches: uno pequeño, uno mediano y uno gigante. Si los conduces por la misma carretera, sus velocidades y consumos de gasolina serán muy diferentes. Pero, ¿qué pasaría si pudieras normalizar su viaje?

Los autores descubrieron que, si ajustas tres cosas clave (la velocidad del motor, la cantidad de combustible por pasajero y el tiempo de reacción del conductor), las curvas de rendimiento de todos los coches se "colapsan" en una sola línea perfecta.

En la vida real: Significa que si entrenas un modelo pequeño de IA con las reglas correctas, su curva de aprendizaje es exactamente igual (en forma) a la de un modelo gigante.
La analogía: Es como si pudieras ver el mapa completo de un viaje de 1000 km mirando solo los primeros 100 km. Si la curva se ve bien al principio, sabes que llegarás bien al final.

2. Las Tres Reglas de Oro (Los "Controladores")

Para que este "colapso" funcione y puedas predecir el futuro, debes ajustar tres perillas:

TPP (Tokens por Parámetro): Imagina que tienes un grupo de estudiantes (los parámetros de la IA) y un montón de libros (los datos). El TPP es cuántos libros le toca leer a cada estudiante. Si le das demasiados libros a pocos estudiantes, se aburren. Si le das muy pocos a muchos, se aburren. Hay una "cantidad justa" (como 20 libros por estudiante) que es la más eficiente.
La Perilla del Tiempo (τ - Tau): Esto es como el ritmo de aprendizaje. ¿Debes aprender rápido y cometer muchos errores al principio (memoria corta), o aprender lento y ser muy preciso (memoria larga)? El paper descubre que este ritmo debe ajustarse perfectamente según cuántos libros (datos) tengas.
El Plan de Clases (Tasa de Aprendizaje): Es cómo se reduce la dificultad de los ejercicios con el tiempo. Debe ser una receta específica (como bajar la velocidad gradualmente hasta llegar a cero).

Si ajustas estas tres cosas correctamente, todos los modelos, grandes o pequeños, siguen la misma "autopista" de aprendizaje.

3. ¿Por qué es esto revolucionario? (Dos Superpoderes)

A. El Detector de Problemas (El "Termómetro")

Imagina que estás construyendo una torre de bloques. De repente, un bloque se pone torcido. En el pasado, tendrías que esperar a que la torre se derrumbe para darte cuenta.
Con este método, como sabes exactamente cómo debería verse la curva de crecimiento, si el modelo empieza a desviarse de esa línea perfecta (aunque sea un poquito), el sistema te avisa inmediatamente: "¡Oye! Algo va mal en el bloque 600, no esperes a que se caiga la torre".

Ejemplo real: En sus experimentos, detectaron un error numérico en un modelo gigante mucho antes de que el error fuera visible a simple vista, ahorrando millones de dólares en electricidad y tiempo.

B. El Cristal de Bola (Ahorro de Dinero)

Entrenar un modelo gigante es como comprar un boleto de avión a la luna: es carísimo. Antes, tenías que probar 10 configuraciones diferentes y esperar a que todas terminaran para ver cuál era la mejor.
Con este método, puedes entrenar un modelo pequeño, mirar sus primeros 10-30% del viaje, y predecir con gran precisión cuál será el resultado final de un modelo gigante.

La analogía: Es como probar un pastel en la masa cruda. Si la masa sabe bien y sigue la receta correcta, no necesitas hornear 100 pasteles para saber cuál quedará mejor. Puedes elegir el ganador y ahorrar el 70% del dinero y tiempo.

4. El Proyecto "Celerity" (La prueba de fuego)

Los autores no solo teorizaron; construyeron su propia familia de IAs llamada Celerity.

Usaron estas reglas para entrenar modelos desde 300 millones hasta 3.9 mil millones de parámetros.
Resultado: Sus modelos son tan eficientes que compiten de igual a igual con gigantes como Llama o Gemma, pero usando menos energía y menos parámetros.
Además, usaron el "detector de problemas" para arreglar un error en su modelo más grande antes de que se arruinara todo el entrenamiento.

En resumen

Este paper nos dice que entrenar IAs no tiene que ser un juego de adivinanzas costoso. Si sigues la "receta secreta" (ajustar el ritmo, la cantidad de datos y la velocidad), puedes ver el final del camino mirando solo el principio.

Es como tener un GPS que no solo te dice dónde estás, sino que te predice el tráfico de las próximas horas y te avisa si hay un accidente antes de que llegues a él. ¡Una herramienta increíble para hacer la Inteligencia Artificial más barata, rápida y segura!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Escalado con Colapso (Scaling with Collapse)

1. El Problema

El entrenamiento de Grandes Modelos de Lenguaje (LLM) a escala fronteriza enfrenta dos desafíos principales:

Falta de predictibilidad: A medida que aumentan el tamaño del modelo y el conjunto de datos, es difícil predecir el rendimiento final o los hiperparámetros óptimos sin ejecutar entrenamientos costosos hasta el final.
Ineficiencia computacional: Las prácticas actuales de escalado (como las utilizadas en familias como Llama-2) a menudo varían desigualmente la anchura, profundidad, tamaño de lote y peso decaimiento (weight decay), lo que impide que las curvas de pérdida de diferentes tamaños de modelo sigan una trayectoria común. Esto dificulta la detección temprana de problemas (como inestabilidades numéricas) y la optimización de hiperparámetros.

El trabajo anterior de Qiu et al. (2025) mostró que las curvas de pérdida podían "colapsar" (superponerse) en una trayectoria universal tras una normalización simple, pero solo en tareas a pequeña escala con optimizadores básicos (Adam sin weight decay). No estaba claro si este fenómeno persistía en familias de LLMs entrenadas con recetas de escalado prácticas y completas.

2. Metodología y Fundamentos Teóricos

Los autores proponen que el "colapso" de las curvas de pérdida de entrenamiento (TLCs, Training Loss Curves) es una firma de un entrenamiento computacionalmente eficiente y estable. Identifican tres factores de control clave que deben alinearse a través de diferentes escalas de modelo para lograr este colapso:

Relación Tokens-Parámetro (TPP): La cantidad de tokens de entrenamiento ( $D$ ) dividida por el número de parámetros del modelo ( $N$ ).
Escala de Tiempo de AdamW ( $\tau$ ): Un parámetro derivado de la tasa de aprendizaje ( $\eta$ ), el coeficiente de decaimiento de peso ( $\lambda$ ) y el número total de pasos ( $T$ ), definido como $\tau = 1/(\eta \lambda T)$ . Este controla el compromiso entre la reducción del sesgo (bias) y la supresión de la varianza en el optimizador.
Programación de la Tasa de Aprendizaje (LR Schedule): La forma en que la tasa de aprendizaje decae durante el entrenamiento.

El Hallazgo Central:
Cuando se entrena con Maximal Update Parameterization (µP) y se mantienen fijos el TPP y el $\tau$ (ajustando $\lambda$ y $\eta$ según la escala), las curvas de pérdida normalizadas de modelos de diferentes tamaños colapsan en una única curva universal.

Si $\tau$ no se escala correctamente (como en Llama-2), las curvas no se alinean.
Si $\tau$ se optimiza para un TPP dado, las curvas colapsan, revelando una dinámica subyacente predecible.

3. Contribuciones Clave

Identificación de los Controladores de la Forma de la Curva:
Demuestran que la forma de la curva de pérdida normalizada está gobernada exclusivamente por el TPP, la escala de tiempo $\tau$ y la programación de la LR. Cuando estos se mantienen constantes, la curva es invariante a la escala.
Introducción de la Familia Celerity:
Presentan Celerity, la primera familia de LLMs entrenada bajo un régimen de "colapso" estricto.
- Entrenaron modelos de 300M a 3.9B parámetros.
- Utilizaron una relación TPP fija de 234 (más alta que el óptimo computacional de ~20, priorizando la eficiencia de parámetros).
- Ajustaron $\tau$ óptimamente para ese TPP.
- Utilizaron una programación de LR de decaimiento lineal a cero (D2Z).
Diagnóstico Temprano de Fallos:
Utilizaron el colapso como una herramienta de monitoreo. Al comparar una curva de entrenamiento en curso con la curva de referencia colapsada (obtenida de modelos más pequeños), pueden detectar desviaciones (residuales) que indican problemas numéricos o de inestabilidad mucho antes de que aparezcan en la pérdida cruda.
- Ejemplo: Detectaron una inestabilidad numérica en un modelo de 1.8B en el 60% del entrenamiento, permitiendo reiniciar y corregir el problema antes de desperdiciar recursos.
Parada Temprana en la Sintonización de Hiperparámetros (Early Stopping):
Propusieron un método para predecir el pérdida final ( $L(T)$ ) basándose en solo el 10-30% del entrenamiento.
- Entrenan modelos pequeños para obtener una "curva universal" de referencia.
- Ajustan las curvas parciales de modelos grandes a esta referencia para extrapolar el resultado final.
- Esto permite seleccionar los mejores hiperparámetros (como el tamaño de lote o el decaimiento de peso) sin entrenar hasta el final, ahorrando una cantidad masiva de FLOPs.

4. Resultados Experimentales

Colapso Confirmado: Las curvas de pérdida de Celerity (de 300M a 3.9B) colapsaron perfectamente cuando se normalizaron, confirmando que el régimen de entrenamiento es estable y predecible.
Eficiencia Computacional: Celerity se sitúa en la frontera de eficiencia (Pareto frontier) de precisión vs. FLOPs para modelos abiertos de su escala.
- Comparado con BTLM (entrenado antes de la práctica de annealing en tareas específicas), Celerity logra una precisión comparable con un 75% menos de FLOPs de entrenamiento.
Diagnóstico Exitoso: En el entrenamiento de 1.8B, el método de colapso identificó una divergencia causada por un problema numérico en el kernel de pérdida (solo visible con tamaños de micro-lote específicos) mucho antes de que la pérdida cruda mostrara una tendencia al alza.
Predicción Precisa: El modelo predictivo, ajustado en modelos pequeños (111M), logró predecir con alta precisión las curvas de modelos grandes (hasta 3.3B), permitiendo detener el entrenamiento de sintonización de hiperparámetros en el 10-30% del tiempo con un error mínimo en la selección del mejor hiperparámetro.

5. Significado e Impacto

Este trabajo transforma la práctica de entrenamiento de LLMs de un proceso artesanal y reactivo a uno científico, predictivo y proactivo:

Validación de la Eficiencia: El "colapso" se establece como una métrica operativa para verificar si un entrenamiento es eficiente. Si las curvas no colapsan, indica que los hiperparámetros no están escalados correctamente.
Reducción de Costos: La capacidad de realizar early stopping en la búsqueda de hiperparámetros reduce drásticamente el costo de entrenamiento de nuevas familias de modelos.
Robustez Operativa: Proporciona una herramienta de diagnóstico cuantitativa para detectar inestabilidades numéricas y de datos en tiempo real, evitando el desperdicio de recursos en entrenamientos defectuosos.
Reproducibilidad: Al estandarizar las recetas de escalado (TPP fijo, $\tau$ óptimo), facilita la comparación justa entre diferentes arquitecturas y estrategias de entrenamiento.

En resumen, el artículo demuestra que al alinear correctamente los controles de optimización (especialmente la escala de tiempo $\tau$ ), el entrenamiento de LLMs se vuelve predecible, permitiendo a los investigadores desarrollar modelos más eficientes y detectar fallos con una precisión sin precedentes.