On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un architecte qui construit des gratte-ciels. Plus le bâtiment est grand (plus il a d'étages et d'habitants), plus il doit être stable. Dans le monde de l'intelligence artificielle, ces "gratte-ciels" sont les réseaux de neurones, et leur "taille" s'appelle la largeur (le nombre de neurones par couche).

Le problème majeur que ce papier résout est le suivant : Comment apprendre à un petit bâtiment à se tenir debout pour que, quand on le transforme en un géant, il ne s'effondre pas ?

Voici l'explication simple de la découverte de Ruihan Xu et de ses collègues, sans jargon mathématique compliqué.

1. Le Problème : L'effet "Géant"

Jusqu'à présent, les ingénieurs en IA utilisaient des règles d'apprentissage (des "optimiseurs" comme AdamW ou Muon) qui fonctionnaient bien pour des petits modèles. Mais dès qu'ils augmentaient la taille du modèle (la largeur), tout se cassait la figure.

L'analogie : C'est comme si vous régliez la vitesse d'une voiture pour une course sur un circuit de 1 km. Si vous gardez exactement le même réglage pour une course sur 100 km, la voiture va soit s'arrêter trop vite, soit exploser le moteur.
La réalité : Pour entraîner un modèle 4 fois plus grand, il fallait souvent changer radicalement les réglages (le taux d'apprentissage). C'était une perte de temps énorme et coûteuse.

2. La Solution : Le "Règle de la Moyenne" (Mean Normalization)

Les auteurs ont regardé comment ces optimiseurs fonctionnent. Ils ont réalisé que la plupart d'entre eux essayaient de trouver la "pente la plus raide" pour descendre une montagne (minimiser l'erreur). Mais ils utilisaient une boussole défectueuse qui ne fonctionnait pas quand la montagne devenait plus large.

Ils ont inventé une nouvelle boussole basée sur des normes "moyennées".

L'analogie de la foule : Imaginez que vous mesurez le bruit dans une salle.
- L'ancienne méthode (Norme classique) : Si vous avez 10 personnes qui crient, le bruit est X. Si vous avez 1000 personnes qui crient avec la même intensité, le bruit total devient énorme (X * 1000). La mesure dépend de la taille de la foule.
- La nouvelle méthode (Norme "moyenne") : Au lieu de mesurer le bruit total, vous mesurez le bruit par personne. Que la salle ait 10 ou 1000 personnes, si chacun crie de la même façon, la "moyenne" reste la même.
Le résultat : En utilisant cette "moyenne", les règles d'apprentissage deviennent indépendantes de la taille. Un réglage qui fonctionne pour un petit modèle fonctionnera parfaitement pour un modèle géant.

3. La Découverte Surprenante : Le Dilemme "Muon"

Le papier analyse un optimiseur très populaire et puissant appelé Muon.

Muon est comme un athlète olympique : très rapide et efficace, mais il a un défaut caché.
Le problème : Quand le modèle devient très large, la "douceur" du terrain d'entraînement (la courbure) devient de plus en plus rugueuse pour Muon. C'est comme si, plus le bâtiment grandissait, plus le sol devenait glissant et instable.
La conséquence : Muon peut fonctionner, mais il risque de devenir instable ou de nécessiter des ajustements précis quand le modèle est énorme.

4. La Nouvelle Star : MOGA (Le "Gardien de la Géométrie")

Les auteurs proposent un nouvel optimiseur appelé MOGA (Matrix Operator Geometry Aware).

Comment ça marche ? MOGA utilise une technique appelée "normalisation par ligne" (Row Normalization).
L'analogie : Imaginez que vous dirigez une équipe de 1000 personnes.
- Muon essaie de coordonner tout le monde en même temps (ce qui devient chaotique quand l'équipe grandit).
- MOGA, lui, dit : "Chaque ligne de l'équipe (chaque rangée de neurones) doit garder son propre rythme, mais en gardant une moyenne constante."
Pourquoi c'est mieux ?
1. Stabilité : MOGA reste stable même si le modèle devient gigantesque.
2. Transfert facile : Vous pouvez entraîner un petit modèle, trouver le meilleur réglage, et l'appliquer directement à un modèle 10 fois plus grand sans rien changer. C'est comme si vous aviez trouvé le "code secret" universel.
3. Vitesse : Dans les phases finales de l'entraînement (quand le modèle est presque parfait), MOGA est plus rapide et plus stable que Muon.

En Résumé

Ce papier nous dit : "Arrêtez de deviner comment régler vos géants de l'IA."

En changeant la façon dont on mesure les pas d'apprentissage (en passant d'une mesure "totale" à une mesure "moyenne"), les auteurs ont créé un système (MOGA) qui :

Fonctionne aussi bien pour un petit modèle que pour un géant.
Élimine le besoin de réapprendre les réglages à chaque fois qu'on agrandit le modèle.
Est plus robuste et rapide que les méthodes actuelles les plus populaires.

C'est une avancée majeure pour rendre l'entraînement des très grands modèles d'IA plus simple, plus rapide et moins coûteux.

Each language version is independently generated for its own context, not a direct translation.

Titre : Sur l'Échelle de Largeur des Optimiseurs de Réseaux de Neurones sous les Normes Opératoires Matricielles I : Normalisation par Ligne/Colonne et Transfert d'Hyperparamètres

1. Problématique

L'article aborde une question centrale en apprentissage profond moderne : comment concevoir des optimiseurs dont le comportement reste stable lorsque la largeur du réseau ( $w$ ) augmente ?

Le constat actuel : Les lois d'échelle (scaling laws) suggèrent que la performance s'améliore avec la taille du modèle. Cependant, les hyperparamètres d'optimisation, en particulier le taux d'apprentissage (learning rate), sont fortement dépendants de la largeur du réseau. Un taux optimisé pour un réseau de 512 unités cachées peut diverger ou converger très lentement si la largeur passe à 2048.
Le manque de transfert : Il n'existe pas de mécanisme fiable pour transférer les hyperparamètres d'un petit modèle vers un grand modèle sans un réajustement coûteux.
La limite des normes classiques : Les optimiseurs courants (AdamW, Muon, etc.) peuvent être interprétés comme des descentes de gradient les plus raides (steepest descent) sous certaines normes opératoires matricielles ( $p \to q$ ). Cependant, les auteurs montrent que les normes classiques ne garantissent pas un contrôle indépendant de la largeur des constantes de Lipschitz et de lissité (smoothness) dans les architectures profondes, en raison d'incompatibilités géométriques entre les couches.

2. Méthodologie et Cadre Théorique

Les auteurs proposent un cadre unifié basé sur la géométrie des normes opératoires matricielles pour analyser et concevoir des optimiseurs.

A. Interprétation Géométrique des Optimiseurs

Ils interprètent divers optimiseurs (SignSGD, AdamW, Muon, GradPower) comme des instances de descente de gradient les plus raides sous des normes spécifiques :

SignSGD/AdamW : Correspondent à la géométrie $\ell_1 \to \ell_\infty$ (ou $\ell_\infty$ vectoriel).
Muon : Correspond à la géométrie $\ell_2 \to \ell_2$ (norme spectrale).
Normalisation par colonne/ligne : Correspondent aux géométries $\ell_1 \to \ell_q$ et $\ell_p \to \ell_\infty$ .

B. Le Problème de la Composition des Couches

L'analyse révèle que les normes classiques $p \to q$ (avec $p \le q$ ) échouent à fournir des bornes de Lipschitz indépendantes de la largeur lorsqu'elles sont empilées sur plusieurs couches.

Cause : Un "coefficient de désaccord" (mismatch coefficient) entre les espaces de sortie d'une couche et d'entrée de la suivante. Pour les normes classiques, ce coefficient croît avec la dimension ( $n^{1/p - 1/q}$ ), amplifiant les perturbations et rendant la stabilité dépendante de la largeur.

C. Solution : Normes Opératoires Moyennes-Normalisées

Pour résoudre ce problème, les auteurs introduisent une nouvelle famille de normes : les normes moyennes-normalisées, notées $(p, \text{mean}) \to (q, \text{mean})$ .

Définition : $\|x\|_{(p, \text{mean})} = n^{-1/p} \|x\|_p$ .
Propriété clé : Cette normalisation annule exactement le facteur d'échelle dimensionnelle, garantissant que la norme de l'identité entre couches adjacentes est $\le 1$ .
Résultat théorique : Sous cette géométrie, la fonction de perte admet des bornes de Lipschitz et de lissité ( $L$ -smoothness) indépendantes de la largeur du réseau, à condition que $q \ge 2p$ (pour la lissité).

D. Analyse Spécifique de Muon

L'article met en lumière une limitation théorique de l'optimiseur Muon (géométrie $(2, \text{mean}) \to (2, \text{mean})$ ) :

Bien que Muon contrôle la constante de Lipschitz indépendamment de la largeur, sa constante de lissité croît comme $O(\sqrt{w})$ dans le pire des cas.
Cela suggère que Muon pourrait devenir instable ou nécessiter un taux d'apprentissage décroissant avec la largeur lors des phases avancées de l'entraînement (régime de faible perte).

3. Contributions Clés

Cadre Unifié MOGA (Matrix Operator Geometry Aware) :
Les auteurs proposent une famille d'optimiseurs basés sur la géométrie $(p, \text{mean}) \to (q, \text{mean})$ . Cela inclut des variantes redimensionnées d'AdamW, ainsi que des méthodes de normalisation par ligne et par colonne.
- Règle de mise à l'échelle : Le taux d'apprentissage doit être ajusté par un facteur dépendant de la largeur (ex: $d_{in}^{-1/p}$ pour la normalisation par ligne).
Théorème de Transfert d'Hyperparamètres :
Ils démontrent que sous les géométries $(1, \text{mean}) \to (q, \text{mean})$ avec $q \ge 2$ et $(p, \text{mean}) \to \infty$ , le taux d'apprentissage optimal est indépendant de la largeur. Cela permet de transférer directement les hyperparamètres d'un petit modèle à un grand modèle sans réajustement.
- Ce résultat récupère le scaling $\mu P$ (Maximal Update Parametrization) comme cas particulier pour Adam/SignSGD, mais avec une justification géométrique différente (contrôle de la lissité vs préservation du comportement d'apprentissage des features).
Analyse du Compromis Approximation-Optimisation :
L'article compare les contraintes induites par différentes géométries :
- Muon : Lissage dépendant de la largeur ( $O(\sqrt{w})$ ), mais capacité de représentation stable.
- Normalisation par colonne : Lissage indépendant, mais contrainte de poids trop forte ( $O(w^{-(q-1)/q})$ ), réduisant la capacité d'approximation.
- Normalisation par ligne (proposée) : Lissage indépendant et contrainte de poids plus faible ( $O(w^{-1/p})$ ), offrant un meilleur compromis entre stabilité de l'optimisation et flexibilité de représentation.
Algorithme MOGA :
Présentation d'un algorithme pratique utilisant uniquement la normalisation par ligne/colonne, sans nécessiter de calculs de second ordre coûteux (contrairement à Muon qui utilise une itération de Newton-Schulz).

4. Résultats Expérimentaux

Les auteurs valident leur théorie par des pré-entraînements à grande échelle sur des architectures GPT-2 et LLaMA.

Transfert de Taux d'Apprentissage :
Les expériences montrent que le taux d'apprentissage optimal pour MOGA (avec normalisation par ligne) reste invariant lorsque la largeur du modèle passe de 124M à 1.5B paramètres. Les modèles de tailles très différentes atteignent leur meilleure performance avec le même taux de pic.
Performance sous Budget de Tokens Standard (~1x Chinchilla) :
MOGA (normalisation par ligne) est compétitif avec Muon et AdamW, convergeant plus vite que AdamW sur LLaMA-130M.
Performance sous Grand Budget de Tokens (~8x Chinchilla) :
C'est ici que MOGA excelle. Dans les régimes de faible perte (low-loss), MOGA avec normalisation par ligne montre une convergence plus rapide et une meilleure stabilité finale que Muon et AdamW.
- Sur GPT-2 Small, MOGA dépasse Muon à la fin de l'entraînement.
- Sur LLaMA-130M, MOGA obtient les meilleures performances globales.

5. Signification et Impact

Théorique : L'article fournit une fondation théorique rigoureuse pour le transfert d'hyperparamètres basée sur la géométrie de l'optimisation (contrôle de la lissité) plutôt que sur des hypothèses spectrales ou des limites infinies. Il identifie que la stabilité de l'optimisation à grande échelle dépend crucialement de la compatibilité des normes entre les couches.
Pratique :
- Réduction des coûts : Permet d'éviter le coûteux "grid search" des hyperparamètres lors du passage à l'échelle des modèles.
- Efficacité : La méthode MOGA (surtout avec normalisation par ligne) est non seulement plus simple à implémenter que Muon (pas d'itérations SVD/Newton-Schulz), mais elle est également plus performante dans les régimes de faible perte, critiques pour les modèles de langage modernes.
- Généralité : Le cadre s'applique à une classe plus large d'optimiseurs que le $\mu P$ standard, y compris ceux qui ne satisfont pas les hypothèses spectrales strictes.

En conclusion, ce travail démontre que l'adoption d'une géométrie de norme opératoire moyenne-normalisée, combinée à une normalisation par ligne, offre une voie robuste pour l'entraînement stable et efficace de modèles de très grande taille, en garantissant que la dynamique d'optimisation reste cohérente quelle que soit la largeur du réseau.