Scaling with Collapse: Efficient and Predictable Training of LLM Families

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier qui veut préparer le meilleur plat possible (un modèle d'IA) pour des milliers de convives (les utilisateurs). Jusqu'à présent, cuisiner pour 10 personnes et pour 10 000 personnes était un casse-tête total : les recettes ne fonctionnaient pas de la même manière, et il fallait souvent deviner les ingrédients au hasard.

Cette paper propose une nouvelle règle d'or pour la cuisine des IA.

1. Le problème : La recette change avec la taille

Avant, quand on augmentait la taille d'un modèle d'IA (en ajoutant plus de "neurones"), on devait tout réapprendre. C'est comme si le temps de cuisson d'un petit gâteau ne vous disait rien sur le temps de cuisson d'un gâteau géant. On perdait énormément de temps et d'argent (de l'électricité, du matériel) à faire des essais et des erreurs.

De plus, il était difficile de savoir si quelque chose n'allait pas pendant la cuisson. Si le gâteau commençait à brûler un peu, il fallait attendre la fin pour le constater, et souvent, il était trop tard.

2. La découverte : L'Effondrement (The Collapse)

Les chercheurs ont découvert quelque chose de magique : si on suit la bonne recette, tous les gâteaux, qu'ils soient petits ou gigantesques, suivent exactement la même courbe de cuisson une fois normalisée.

Imaginez que vous avez une règle magique. Si vous prenez la courbe de cuisson d'un petit gâteau et celle d'un géant, et que vous les superposez avec cette règle, elles se superposent parfaitement. Elles "s'effondrent" l'une sur l'autre pour ne former qu'une seule ligne universelle.

C'est ce qu'ils appellent le "Collapse" (l'effondrement). Cela signifie que le comportement de l'IA est prévisible. Si vous savez comment un petit modèle apprend, vous savez exactement comment un grand modèle va apprendre, à condition de respecter trois ingrédients clés :

Le rythme d'apprentissage (Learning Rate) : À quelle vitesse l'IA assimile l'information.
Le ratio Données/Paramètres (TPP) : Combien de pages de livres l'IA lit par rapport à la taille de son cerveau.
Le "Temps de mémoire" (AdamW timescale) : Combien de temps l'IA se souvient de ses erreurs passées avant de les oublier.

3. La solution : La famille Celerity

Pour prouver leur théorie, ils ont créé une nouvelle famille d'IA appelée Celerity.
Au lieu de cuisiner au hasard, ils ont appliqué cette règle de "superposition". Résultat ?

Efficacité : Ils ont obtenu des modèles aussi performants que les géants actuels (comme Llama ou Gemma), mais en utilisant beaucoup moins d'énergie et de temps de calcul. C'est comme obtenir un gâteau de 10 kg avec la moitié des ingrédients.
Prédictibilité : Ils ont pu entraîner des modèles de différentes tailles (de 300 millions à 3,9 milliards de paramètres) et voir que leurs courbes d'apprentissage suivaient exactement la même ligne.

4. Les deux super-pouvoirs de cette découverte

A. Le détecteur de problèmes (Le radar de cuisine)

C'est l'application la plus cool. Imaginez que vous surveillez la cuisson de votre gâteau géant.

Avant : Vous deviez attendre la fin pour voir si le gâteau était raté.
Aujourd'hui (avec Collapse) : Comme vous connaissez la "ligne parfaite" que le gâteau devrait suivre, vous pouvez comparer la cuisson en temps réel avec cette ligne.
- Si la courbe s'écarte même un tout petit peu de la ligne idéale, vous savez immédiatement : "Houla, il y a un problème !"
- Dans l'article, ils ont détecté une erreur informatique (un bug) dans un modèle de 1,8 milliard de paramètres bien avant que le problème ne devienne visible à l'œil nu. Ils ont pu arrêter la cuisson, réparer le four, et reprendre là où ils en étaient, sans perdre des jours de travail.

B. L'arrêt anticipé (Ne pas cuisiner jusqu'à la fin)

Entraîner une IA coûte très cher. Souvent, on doit attendre la fin de l'entraînement pour savoir si une recette est bonne.
Grâce à cette découverte, on peut arrêter l'entraînement très tôt (par exemple après 10% ou 30% du temps total).

On regarde la courbe partielle.
On la compare à la "ligne universelle" connue.
On peut prédire avec précision quel sera le résultat final.
Si la prédiction est mauvaise, on arrête tout de suite et on change de recette. Cela économise énormément d'argent et de temps.

En résumé

Cette recherche nous dit : "Arrêtez de deviner !"

En trouvant les bons réglages (le bon rythme, la bonne quantité de données, la bonne mémoire), l'entraînement des IA devient prévisible.

C'est comme avoir une carte routière parfaite : vous savez exactement où vous allez.
Si vous déviez de la route, vous le savez tout de suite (détection de bugs).
Vous pouvez prédire votre arrivée à l'avance (arrêt anticipé).

Cela permet de créer des IA plus intelligentes, moins chères à entraîner, et plus fiables. C'est une étape majeure pour rendre l'intelligence artificielle plus accessible et plus durable.

Each language version is independently generated for its own context, not a direct translation.

Titre : Scaling with Collapse: Efficient and Predictable Training of LLM Families

Auteurs : Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness (Cerebras Systems)

1. Problématique

L'entraînement des grands modèles de langage (LLM) repose de plus en plus sur des lois d'échelle (scaling laws) pour prédire les performances en fonction de la taille du modèle et du volume de données. Cependant, plusieurs défis persistent :

Manque de prévisibilité des courbes de perte : Bien que les performances finales soient prévisibles, la forme des courbes d'apprentissage (Training Loss Curves - TLC) varie souvent de manière imprévisible entre différentes tailles de modèles, surtout lorsque les hyperparamètres (taux d'apprentissage, poids de régularisation, taille de lot) sont ajustés selon des recettes pratiques complexes.
Difficulté de diagnostic et d'arrêt précoce : À l'échelle frontalière (frontier scale), il est coûteux et risqué d'attendre la fin de l'entraînement pour détecter des pathologies (instabilités numériques, dérive de la perte) ou pour choisir les meilleurs hyperparamètres. Les critères actuels pour arrêter un entraînement ou réinitialiser un modèle sont souvent subjectifs.
Inefficacité des méthodes de réglage : Les pratiques courantes de réglage d'hyperparamètres (HPO) nécessitent souvent d'entraîner des modèles complets pour comparer les résultats finaux, ce qui gaspille une quantité massive de calcul.

2. Méthodologie et Concepts Clés

Les auteurs s'appuient sur le concept d'effondrement (collapse) des courbes de perte, observé précédemment par Qiu et al. (2025) sur de petits modèles, mais étendent cette découverte aux familles de LLM à grande échelle.

A. Les trois contrôles de la forme de la courbe

L'étude identifie trois facteurs déterminants qui, lorsqu'ils sont alignés, permettent aux courbes de perte normalisées de différentes tailles de modèles de se superposer (s'effondrer) sur une trajectoire universelle :

Le ratio Tokens-Per-Parameter (TPP) : Le rapport entre le nombre total de tokens d'entraînement ( $D$ ) et le nombre de paramètres ( $N$ ). Ce ratio détermine le rythme relatif d'amélioration.
L'échelle temporelle de l'AdamW ( $\tau$ ) : Définie comme $\tau = B / (\eta \lambda D)$ , où $B$ est la taille de lot, $\eta$ le taux d'apprentissage, et $\lambda$ le poids de régularisation (weight decay). $\tau$ contrôle le compromis biais-variance : un $\tau$ faible favorise la réduction rapide du biais (début de l'entraînement), tandis qu'un $\tau$ élevé favorise la suppression de la variance (fin de l'entraînement).
Le programme de taux d'apprentissage (LR Schedule) : La façon dont le taux d'apprentissage évolue au cours du temps (ex: décroissance linéaire vers zéro).

B. La condition de l'effondrement

Les auteurs démontrent que l'effondrement se produit précisément lorsque :

Le TPP est fixe à travers les tailles de modèles.
Le paramètre $\tau$ est optimisé pour ce TPP spécifique (selon des lois d'échelle empiriques récentes).
Le programme de taux d'apprentissage est cohérent.

Sous ces conditions, la perte normalisée $\ell(\hat{t})$ (où $\hat{t}$ est la fraction de l'entraînement terminé) devient invariante d'échelle.

C. La famille de modèles Celerity

Pour valider ces hypothèses, les auteurs introduisent Celerity, une nouvelle famille de LLM (de 300M à 3,9B de paramètres) entraînée avec une stratégie de mise à l'échelle rigoureuse :

Entraînement sur des bandes de TPP fixes (20, 80, et 234).
Utilisation de CompleteP (une paramétrisation améliorée par rapport au $\mu$ P standard) pour transférer les hyperparamètres sur la largeur et la profondeur.
Ajustement optimal de $\tau$ pour chaque bande de TPP.
Utilisation de données de haute qualité (éducation, mathématiques, code) via FineWeb-Edu et Cosmopedia.

3. Contributions Principales

Identification des facteurs modulateurs : Démonstration que la forme des courbes de perte est gouvernée par le triplet (TPP, $\tau$ , LR Schedule). L'alignement de ces trois facteurs garantit l'effondrement.
Validation à grande échelle : Confirmation que l'effondrement persiste pour des familles de LLM complètes avec des recettes d'entraînement pratiques (co-mise à l'échelle de la largeur, profondeur, taille de lot et poids de régularisation), comblant ainsi le vide laissé par les travaux antérieurs limités à de petits modèles.
Diagnostic précoce par résidus : Introduction d'une méthode de surveillance où la déviation d'une courbe de perte par rapport à la courbe "effondrée" de référence sert de signal d'alerte précoce pour détecter des pathologies (ex: instabilités numériques, problèmes de noyau de calcul) bien avant que la perte brute ne montre des signes visibles.
Arrêt précoce dans le réglage d'hyperparamètres (Early Stopping) : Développement d'un modèle prédictif paramétrique (basé sur une forme fonctionnelle simple) entraîné sur de petits modèles. Ce modèle permet de prédire la perte finale d'un grand modèle après seulement 10 à 30 % de l'entraînement, en alignant la courbe partielle sur la trajectoire universelle.

4. Résultats Expérimentaux

Effondrement des courbes : Les courbes de perte des modèles Celerity (300M à 3,9B) s'effondrent parfaitement sur une seule trajectoire lorsque $\tau$ et TPP sont fixés correctement (Fig. 1, milieu). À l'inverse, des familles comme Llama-2, où $\tau$ n'est pas optimisé pour le TPP, ne montrent pas cet effondrement.
Détection d'anomalies : Dans un entraînement de 1,8B, une instabilité numérique a été détectée via les résidus d'effondrement à environ 60 % de l'entraînement, alors que la courbe de perte brute ne montrait de dérive qu'à 90 %. Cela a permis de corriger le problème (noyau de perte spécifique à certaines tailles de micro-lots) et de redémarrer l'entraînement sans gaspiller de ressources.
Efficacité computationnelle : Celerity se situe sur la frontière de Pareto efficacité/calcul pour les modèles ouverts de sa taille. Par rapport à BTLM, Celerity atteint une précision comparable avec 75 % de FLOPs en moins.
Prédiction pour le réglage (HPO) :
- En fixant $\tau$ (en ajustant $\lambda$ ) lors des balayages de taille de lot, l'ordre des courbes est préservé, permettant un arrêt précoce.
- Le modèle prédictif permet d'identifier le meilleur hyperparamètre avec une erreur négligeable après seulement 10-30 % de l'entraînement, réduisant considérablement le coût de réglage.

5. Signification et Impact

Ce travail transforme la façon dont les LLM sont entraînés et surveillés à grande échelle :

Prévisibilité opérationnelle : L'effondrement fournit une "trajectoire de référence" universelle. Tout écart par rapport à cette trajectoire signale immédiatement un problème, passant d'une surveillance subjective à une surveillance quantitative.
Réduction des coûts : La capacité d'arrêter les mauvais réglages d'hyperparamètres très tôt (10-30 % de l'entraînement) économise des ressources de calcul massives, cruciales pour les budgets d'entraînement de plusieurs milliards de dollars.
Nouvelle recette d'entraînement : La démonstration que l'optimisation conjointe de $\tau$ et du TPP mène à des modèles plus efficaces et prévisibles offre une feuille de route claire pour le développement futur de modèles plus grands et plus stables.
Celerity comme référence : La famille Celerity sert de baseline ouverte et reproductible pour évaluer les stratégies d'entraînement sans biais de données spécifiques (data annealing), favorisant la science ouverte.

En résumé, le papier établit que l'effondrement des courbes de perte est une signature d'un entraînement efficace et stable, et fournit les outils théoriques et pratiques pour exploiter cette propriété afin de rendre l'entraînement des LLM plus rapide, moins coûteux et plus fiable.