The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Grand Défi : Comment les IA apprennent-elles vraiment ?

Imaginez que vous apprenez à jouer au tennis. Vous avez une raquette (le modèle) et une balle (la donnée). Votre but est de frapper la balle pour qu'elle passe au-dessus du filet (la bonne réponse) sans toucher le sol (l'erreur).

Dans le monde de l'IA moderne, les réseaux de neurones sont souvent énormes (sur-paramétrés). Ils ont tellement de muscles (paramètres) qu'ils pourraient théoriquement apprendre n'importe quel mouvement, même les plus absurdes. Pourtant, miracle : quand on les entraîne, ils deviennent excellents pour généraliser (jouer sur n'importe quel terrain, pas seulement celui où ils ont pratiqué).

La question est : Pourquoi ? Pourquoi choisissent-ils une solution "propre" et généralisable plutôt qu'une solution "brouillonne" qui fonctionne juste par hasard ?

La réponse réside dans le biais implicite. C'est-à-dire que la méthode utilisée pour apprendre (l'optimiseur) a une "préférence" naturelle, comme un guide touristique qui vous pousse doucement vers une certaine direction, même si vous ne lui avez pas demandé explicitement d'y aller.

🚶‍♂️ Le Guide : La "Descente de Pente" (Steepest Descent)

Pour apprendre, l'IA regarde la pente de la colline (l'erreur) et descend.

La descente classique (Gradient Descent) : C'est comme marcher en suivant la pente la plus raide. On a découvert que cela pousse l'IA à trouver la solution qui maximise la marge (la distance de sécurité entre la balle et le filet). Plus la marge est grande, plus c'est sûr.
Le problème : Les chercheurs ont longtemps cru que tous les algorithmes faisaient la même chose. Mais en réalité, il existe des "guides" très populaires comme Adam et Muon qui marchent différemment.

🌪️ Les Nouveaux Guides : Adam et Muon

L'article de Gronich et Vardi s'intéresse à deux de ces guides très populaires :

Adam : C'est le "couteau suisse". Il ajuste sa vitesse en fonction de l'histoire récente des erreurs. Il est très rapide et très utilisé.
Muon : C'est un nouveau venu, très efficace pour les grands modèles (comme ceux qui génèrent du texte). Il utilise une astuce mathématique (l'orthogonalisation) pour garder ses pas bien alignés.

La découverte clé du papier :
Ces deux guides ne cherchent pas la même "marge de sécurité".

Si vous utilisez Adam, l'IA va chercher à maximiser la marge selon une règle très stricte (la norme $L_\infty$ ). Imaginez que vous voulez que chaque balle soit loin du filet, même la plus proche.
Si vous utilisez Muon, l'IA va chercher une marge basée sur la structure globale de ses muscles (la norme spectrale). C'est comme regarder l'ensemble du mouvement plutôt que chaque balle individuellement.

🧪 L'Analogie du Voyageur et de la Boussole

Imaginez que vous devez traverser une forêt (l'espace des solutions possibles) pour atteindre un point précis.

La descente classique vous donne une boussole qui pointe toujours vers le Nord. Vous finissez par suivre un chemin très droit.
Adam vous donne une boussole qui réagit au vent. Si le vent souffle fort d'un côté, vous vous penchez. Résultat : vous finissez par suivre un chemin qui maximise votre distance par rapport aux arbres les plus proches d'un côté spécifique.
Muon vous donne une boussole qui regarde la forme de votre propre corps. Vous finissez par suivre un chemin qui maximise votre équilibre global.

Le papier prouve mathématiquement que peu importe la complexité du chemin, si vous suivez Adam ou Muon avec un rythme de marche (taux d'apprentissage) qui ralentit doucement, vous finirez toujours par vous arrêter exactement là où la "marge" est la plus grande pour votre type de boussole.

🛠️ Comment ils ont prouvé ça ? (La "Descente Approximative")

Les auteurs ont eu une idée brillante. Ils ont dit : "Et si on regardait ces algorithmes complexes non pas comme des machines bizarres, mais comme des versions 'approximatives' de la descente de pente classique ?"

Ils ont montré que, même si Adam et Muon font des petits pas différents, à long terme, leur comportement ressemble tellement à une descente de pente bien réglée qu'ils finissent par converger vers le même type de solution "optimale" (un point KKT).

C'est comme si vous aviez deux voitures différentes (une sportive et une familiale) qui prennent des routes légèrement différentes, mais qui finissent toutes les deux par arriver au même parking parce que la carte (la mathématique) les y force.

📊 Les Résultats (L'Expérience)

Pour vérifier leur théorie, ils ont entraîné de petits réseaux de neurones sur des images de chiffres (MNIST) pour dire si un chiffre est pair ou impair.

Ils ont utilisé Adam : L'IA a trouvé une solution qui maximise la marge "stricte" ( $L_\infty$ ).
Ils ont utilisé Muon : L'IA a trouvé une solution qui maximise la marge "spectrale".
Ils ont même mélangé les deux (Muon-Adam) : L'IA a trouvé une solution hybride, maximisant la marge selon les deux règles à la fois !

💡 Pourquoi est-ce important ?

Avant, on pensait que tous les optimiseurs faisaient à peu près la même chose. Ce papier nous dit : "Non, le choix de l'optimiseur change la nature de la solution apprise."

C'est comme choisir un architecte pour construire une maison :

L'un va privilégier la solidité des fondations (Adam).
L'autre va privilégier l'harmonie de l'ensemble (Muon).

Comprendre ce "biais implicite" permet aux ingénieurs de choisir le bon outil pour le bon travail. Si vous voulez une IA robuste contre les attaques ou capable de généraliser dans des situations extrêmes, choisir le bon "guide" (optimiseur) est aussi important que le choix des données.

En résumé : Ce papier nous apprend que la façon dont une IA apprend (son "optimiseur") détermine secrètement la qualité et la nature de sa solution finale, en la poussant vers un type de marge de sécurité spécifique, comme un guide invisible qui trace le chemin idéal.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les réseaux de neurones profonds, bien que souvent sur-paramétrés et entraînés sans régularisation explicite, montrent d'excellentes performances de généralisation. La théorie de l'biais implicite suggère que les algorithmes d'optimisation basés sur le gradient convergent naturellement vers des solutions spécifiques qui favorisent cette généralisation, souvent en maximisant une certaine marge (margin) sur les données d'entraînement.

Bien que le biais implicite de la descente de gradient (GD) soit bien compris (maximisation de la marge $\ell_2$ ), l'analyse des optimiseurs modernes et populaires comme Adam et Muon reste limitée, principalement restreinte aux modèles linéaires.

Adam est omniprésent dans l'entraînement des grands modèles (LLMs, Vision Transformers), mais son biais implicite dans les réseaux non linéaires n'était pas théoriquement établi.
Muon est un nouvel optimiseur basé sur l'orthogonalisation de Newton-Schulz des matrices de poids, prometteur pour l'entraînement efficace, mais dont les propriétés de convergence directionnelle étaient inconnues.

L'objectif de cet article est de généraliser l'analyse du biais implicite aux modèles homogènes lisses (smooth homogeneous models) pour ces optimiseurs, en prouvant qu'ils convergent vers des points KKT (Karush-Kuhn-Tucker) de problèmes de maximisation de marge spécifiques.

2. Méthodologie et Cadre Théorique

Les auteurs étendent le cadre de la descente de pente la plus raide (Steepest Descent) normalisée et non normalisée pour inclure les méthodes à momentum.

A. Hypothèses Principales

Modèles : Des réseaux de neurones homogènes de degré $L$ (ex: réseaux linéaires, réseaux avec activations $ReLU^q$ ou quadratiques).
Pertes : Pertes à queue exponentielle (ex: perte logistique, perte exponentielle).
Schéma d'apprentissage : Un taux d'apprentissage $\eta(t)$ décroissant tel que $\int_0^\infty \eta(t) dt = \infty$ .
Convergence directionnelle : L'hypothèse que la direction des paramètres $\frac{\theta_t}{\|\theta_t\|}$ converge vers une limite $\bar{\theta}$ avec une marge positive.

B. Concept Clé : Descente de Pente Raide Approximative

Le cœur de la méthodologie est l'introduction du concept de Descente de Pente Raide Approximative (Approximate Steepest Descent).

L'idée est que même si un optimiseur (comme Adam ou Muon) ne suit pas exactement la trajectoire de la descente de pente la plus raide, il s'en approche asymptotiquement sous un taux d'apprentissage décroissant.
Les auteurs montrent que pour ces algorithmes, le rapport entre le vecteur de mise à jour et le gradient (normalisé par la norme duale) tend vers 1, et que l'alignement entre les paramètres et les gradients est préservé asymptotiquement.

C. Analyse Spécifique des Optimiseurs

Muon et Momentum Steepest Descent (MSD) :
- Muon est interprété comme une descente de pente raide normalisée par rapport à la norme spectrale ( $\|\cdot\|_{sp}$ ) pour les matrices de poids.
- Pour les réseaux multicouches, Muon correspond à une descente par rapport à la norme max-spectrale ( $\|\cdot\|_{msp} = \max_k \|W_k\|_{sp}$ ).
- Les combinaisons comme Muon-Signum (Muon pour les matrices, Signum pour les vecteurs) sont analysées comme des descentes par rapport à une norme hybride (le maximum des normes individuelles).
Adam :
- L'analyse se concentre sur la version d'Adam sans constante de stabilité ( $\epsilon=0$ ), ce qui reflète mieux le comportement pratique où le gradient domine.
- Les auteurs prouvent qu'Adam se comporte asymptotiquement comme une descente de pente raide normalisée par rapport à la norme $\ell_\infty$ .
- La preuve repose sur l'analyse du rapport entre les moments du premier et du second ordre, montrant que le terme de mise à jour de Adam tend vers le signe du gradient ( $\text{sign}(g)$ ), caractéristique de la minimisation de la norme $\ell_\infty$ .

3. Contributions Clés

Extension de la Descente de Pente Raide Normalisée :
- Démonstration que tout point limite de la trajectoire de la descente de pente raide normalisée (avec un schéma de taux d'apprentissage arbitraire satisfaisant la condition d'intégrale divergente) est un point KKT du problème de maximisation de marge associé à la norme utilisée. Cela généralise les travaux antérieurs (Tsilivis et al., 2025) qui supposaient un taux d'apprentissage constant.
Biais Implicite de Muon et Momentum :
- Preuve que Muon maximise la marge définie par la norme max-spectrale ( $\|\cdot\|_{msp}$ ).
- Généralisation à tout algorithme de "Momentum Steepest Descent" (MSD) : le biais dépend de la norme choisie pour le momentum.
- Extension aux algorithmes composites (ex: Muon-Signum), montrant qu'ils maximisent la marge selon une norme hybride (le maximum des normes des sous-ensembles de paramètres).
Biais Implicite d'Adam et Muon-Adam :
- Preuve rigoureuse que Adam (sans constante de stabilité) sur des modèles homogènes lisses maximise la marge $\ell_\infty$ .
- Analyse de Muon-Adam (Muon pour les matrices, Adam pour les vecteurs), montrant qu'il maximise une marge hybride pondérée : $\max(\alpha \|W\|_{msp}, \|u\|_\infty)$ .
Cadre Unificateur :
- Introduction du cadre de la "Descente de Pente Raide Approximative" qui permet d'analyser une large classe d'optimiseurs du premier ordre au-delà de la simple descente de gradient.

4. Résultats Expérimentaux

Les auteurs valident leur théorie sur des réseaux de neurones à deux couches (une couche cachée) entraînés sur le dataset MNIST (classification pair/impair) avec une perte exponentielle.

Configurations : Comparaison entre GD, Signum, Adam, Muon et Muon-Adam, avec des activations ReLU et ReLU au carré (lisse).
Observations :
- GD (avec/sans momentum) : Maximise la marge $\ell_2$ .
- Signum et Adam : Maximisent la marge $\ell_\infty$ . Signum semble converger légèrement plus vite vers la marge $\ell_\infty$ maximale, confirmant que Adam est une approximation de Signum.
- Muon : Maximise la marge $\|\cdot\|_{msp}$ .
- Muon-Adam : Maximise la marge hybride attendue.
Convergence Directionnelle : Les expériences confirment que l'alignement cosinus entre les itérations et la dernière itération dépasse 0.99 en fin d'entraînement, validant l'hypothèse de convergence directionnelle (T2).

5. Signification et Implications

Compréhension Théorique : Ce travail comble un vide majeur en reliant les optimiseurs modernes (Adam, Muon) à la théorie de la maximisation de marge dans des modèles non linéaires complexes, au-delà des cas linéaires.
Choix de l'Optimiseur : Les résultats suggèrent que le choix de l'optimiseur détermine intrinsèquement la géométrie de la solution finale (la norme de la marge maximisée). Cela pourrait influencer le choix de l'optimiseur en fonction des besoins de robustesse ou de généralisation souhaités.
Limites et Ouvertures :
- Les résultats actuels supposent des modèles lisses. L'extension aux réseaux ReLU (non lisses) nécessite des hypothèses supplémentaires sur la stabilité des sous-gradients (hypothèse T3), qui n'est pas encore prouvée dans tous les cas pratiques.
- La preuve de la convergence directionnelle (T2) reste une hypothèse pour Adam et Muon, bien que garantie pour la GD dans certains cas.
- Les auteurs ouvrent la voie à des recherches sur l'impact de ces biais implicites sur la robustesse aux attaques adverses et la reconstruction de données.

En résumé, cet article établit que Adam maximise la marge $\ell_\infty$ et que Muon maximise la marge spectrale, fournissant ainsi une base théorique solide pour comprendre le comportement de ces optimiseurs dominants dans l'apprentissage profond moderne.