NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous construisez un château de cartes géant, représentant un Grand Modèle de Langage (LLM). Ce château est si complexe et si lourd qu'il nécessite des camions entiers de matériel pour être transporté et utilisé. C'est le problème actuel de l'intelligence artificielle : ces modèles sont trop gros pour être utilisés facilement sur des téléphones ou des serveurs peu coûteux.

Pour résoudre ce problème, les chercheurs essaient de "compresser" le château, c'est-à-dire de le rendre plus petit et plus léger sans qu'il ne s'effondre.

Voici l'histoire de la découverte faite par l'équipe de Pluralis Research et de leur nouvelle méthode, NuMuon.

1. Le Problème : Un château trop lourd

Les modèles d'IA actuels sont comme des bibliothèques immenses contenant des milliards de livres. La plupart du temps, on découvre que beaucoup de ces livres disent exactement la même chose ou sont inutiles. On pourrait donc les jeter pour alléger le tout. C'est ce qu'on appelle la compression.

Mais il y a un hic : si vous jetez trop de livres d'un coup, le château s'effondre et l'IA devient bête.

2. La Découverte Surprise : Le "Muon"

Récemment, un nouveau constructeur de châteaux nommé Muon a fait son apparition.

Comment il travaille : Contrairement aux autres constructeurs (comme AdamW) qui rangent les livres un par un, Muon est très organisé. Il regarde les rangées de livres dans leur ensemble et les réorganise avec une grande précision mathématique.
La surprise : Les chercheurs s'attendaient à ce que Muon remplisse le château de livres de toutes sortes, rendant la compression difficile. Mais ils ont fait une découverte incroyable : même si Muon travaille "en plein" (avec tous les livres), le château fini a naturellement une structure très simple et rangée. Il ressemble déjà à un château compressé !

C'est comme si un architecte très perfectionniste, en voulant faire un bâtiment complexe, avait involontairement créé un bâtiment qui se plie facilement en origami.

3. Le Problème Restant : Trop fragile

Bien que Muon crée un château qui se plie bien, il y a un problème : si vous essayez de le plier trop fort (compression agressive), il se brise quand même. Il est "fragile".

4. La Solution : NuMuon (Le Constructeur Conscients)

C'est là qu'intervient NuMuon. C'est une version améliorée de Muon.

Imaginez que Muon est un sculpteur qui taille une statue en marbre. Il sait faire de très belles statues, mais il ne contrôle pas exactement combien de morceaux de marbre il enlève.
NuMuon, lui, ajoute une règle stricte : "Je vais sculpter, mais je vais m'assurer de ne garder que les formes les plus essentielles dès le début."

Techniquement, NuMuon ajoute une contrainte mathématique (une "norme nucléaire") qui force le modèle à apprendre uniquement les informations les plus importantes et à ignorer le superflu pendant l'entraînement.

L'analogie du sac à dos :

AdamW (l'ancien) : Remplit le sac à dos avec tout ce qu'il trouve, au hasard. Quand on veut le compresser, on doit jeter des choses au dernier moment, ce qui casse le modèle.
Muon (le nouveau) : Remplit le sac de manière très intelligente, mais il y a encore un peu de "désordre" caché.
NuMuon (le héros) : Remplit le sac en ne mettant que l'essentiel dès le départ. Il sait exactement quels objets sont vitaux. Résultat ? Quand on veut compresser le sac (le rendre plus petit), on peut enlever 80% du contenu, et le modèle fonctionne toujours aussi bien !

5. Les Résultats : Plus rapide, plus léger, aussi intelligent

Grâce à NuMuon, les chercheurs ont prouvé que :

L'entraînement reste rapide : Le modèle apprend aussi vite que les autres méthodes.
La compression est magique : On peut réduire la taille du modèle de moitié, voire plus, sans perdre en intelligence.
Le gain réel : Pour une même qualité d'intelligence, un modèle NuMuon compressé est beaucoup plus rapide à exécuter et consomme moins d'énergie.

En résumé

Cette recherche nous dit que l'on ne doit pas seulement essayer de compresser un modèle après l'avoir créé. En changeant la façon dont on l'entraîne (avec NuMuon), on peut créer un modèle qui est né compressible.

C'est comme si, au lieu de construire une maison en béton et d'essayer de la réduire plus tard, on apprenait à l'architecte à construire une maison en LEGO dès le début : elle est solide, mais elle se démonte et se transporte facilement sans perdre une seule brique de sa structure.

C'est une avancée majeure pour rendre l'intelligence artificielle accessible à tout le monde, partout, sans avoir besoin de super-ordinateurs.

Each language version is independently generated for its own context, not a direct translation.

Titre : NuMuon : Optimiseur Muon contraint par la norme nucléaire pour l'entraînement de LLM compressibles

1. Problématique

Le déploiement pratique des grands modèles de langage (LLM) est de plus en plus contraint par les coûts de mémoire et de stockage. Pour y remédier, des méthodes de compression sont utilisées, exploitant souvent la structure de faible rang (low-rank) des matrices de poids apprises.

Le paradoxe de Muon : L'optimiseur Muon, récemment proposé, améliore l'entraînement des LLM en effectuant des mises à jour de rang complet (full-rank) et en orthogonalisant les mises à jour de moment (via des méthodes comme Newton-Schulz). Contrairement à des optimiseurs comme AdamW qui présentent un biais implicite vers le faible rang, Muon est conçu pour traiter toutes les directions spectrales de manière uniforme.
La question centrale : Bien que Muon utilise des mises à jour de rang complet, les modèles entraînés avec lui semblent présenter une structure de faible rang émergente. Cependant, cette structure est-elle suffisamment robuste pour une compression agressive ? Si ce n'est pas le cas, comment pouvons-nous renforcer cette propriété sans sacrifier les avantages d'optimisation de Muon ?

2. Méthodologie : NuMuon

Les auteurs proposent NuMuon, une variante de Muon qui introduit une contrainte explicite pour guider l'apprentissage vers des poids plus compressibles.

A. Observation Empirique

Les auteurs ont d'abord constaté que, malgré des mises à jour de rang complet, les modèles entraînés avec Muon développent une structure de faible rang prononcée (mesurée par le stable rank normalisé). Cependant, cette structure est fragile : la performance du modèle se dégrade rapidement lorsque le taux de compression augmente.

B. Formulation Mathématique

NuMuon reformule la mise à jour de Muon sous l'angle des Oracles de Minimisation Linéaire (LMO) sur des boules de normes.

Muon standard : Effectue une mise à jour en minimisant un objectif linéarisé sur une boule de norme spectrale ( $\|\Delta W\|_2 \le \rho$ ). Cela conduit à une mise à jour orthogonale de rang complet ( $\Delta W = -\rho UV^\top$ ).
NuMuon : Ajoute une contrainte de norme nucléaire ( $\|\Delta W\|_* \le \tau$ $∥Δ W ∥_{*} \leq τ$ ) à la boule de norme spectrale. La norme nucléaire (somme des valeurs singulières) est une relaxation convexe classique pour encourager le faible rang.
- L'ensemble admissible devient : $\mathcal{W}^* = \{ \Delta W \mid \|\Delta W\|_2 \le \rho, \|\Delta W\|_* \le \tau \}$ .

C. Solution Analytique et Algorithme

Les auteurs démontrent que le LMO sous ces contraintes se réduit à un programme linéaire sur les valeurs singulières.

La solution optimale consiste à sélectionner les $k$ premières paires de vecteurs singuliers de la matrice de moment $M_t$ .
La mise à jour prend la forme : $\Delta W^* = -\rho \sum_{i=1}^k u_i v_i^\top$ .
Paramètre clé : Le rang $k$ est contrôlé par le budget de norme nucléaire $\tau$ (où $k \approx \lfloor \tau/\rho \rfloor$ ).
Efficacité : Au lieu de calculer une SVD complète (coûteuse), NuMuon utilise une méthode de Krylov bloc randomisée pour approximer efficacement les $k$ vecteurs singuliers dominants.

D. Planification du Rang (Rank Scheduling)

Pour éviter de restreindre trop tôt l'exploration de l'espace des paramètres (ce qui pourrait nuire à la convergence), NuMuon utilise un planificateur de rang (ex: cosinus). Le rang $k$ commence élevé (proche du rang complet) au début de l'entraînement et diminue progressivement vers une valeur cible plus faible, permettant une transition douce vers une structure compressible.

3. Contributions Clés

Découverte d'un biais implicite : Ils montrent que Muon, bien que conçu pour des mises à jour de rang complet, induit naturellement une structure de faible rang dans les poids, rendant les modèles compressibles mais fragiles.
Proposition de NuMuon : Un nouvel optimiseur qui combine la dynamique spectrale de Muon avec une contrainte explicite de rang via une norme nucléaire.
Garanties de convergence : Ils fournissent une analyse de convergence pour NuMuon dans des scénarios non convexes, établissant des bornes de stationnarité sous l'hypothèse que l'énergie de la queue du gradient (au-delà des $k$ premières composantes) est bornée.
Validation Empirique : Démonstration que NuMuon améliore considérablement la robustesse à la compression tout en maintenant des performances d'entraînement comparables à Muon.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de 0,6 à 1,8 milliard de paramètres (Qwen3, Olmo2, Llama3) en utilisant des pipelines de compression d'état de l'art (ASVD, SVD-LLM, Dobi-SVD).

Convergence : NuMuon suit très étroitement la courbe de perte de Muon, confirmant que la contrainte de rang n'altère pas significativement la capacité d'optimisation.
Structure des poids : Les modèles NuMuon présentent un stable rank nettement plus faible et plus stable que ceux de Muon ou AdamW.
Performance après compression :
- À des taux de compression élevés (40% à 80%), les modèles Muon standards subissent une dégradation sévère de la perplexité (PPL).
- Les modèles NuMuon maintiennent une perplexité bien inférieure. Par exemple, à 80% de compression avec Dobi-SVD sur Llama3-1.8B, NuMuon améliore le compromis compression-qualité de 55,9% par rapport à Muon.
- Sur les tâches de compréhension (benchmarks ARC, HellaSwag, etc.), NuMuon conserve une performance supérieure après compression.
Efficacité d'inférence : Pour une perplexité donnée, les modèles NuMuon permettent un débit d'inférence (tokens/seconde) plus élevé grâce à une compression plus efficace.

5. Signification et Impact

Nouveau paradigme d'optimisation : Ce travail démontre que l'on peut concevoir des optimiseurs non seulement pour la convergence, mais aussi pour la déployabilité future (compressibilité).
Alignement entraînement-déploiement : En contrôlant explicitement la structure des poids pendant l'entraînement, NuMuon aligne la dynamique d'optimisation avec les besoins des pipelines de compression post-entraînement.
Réduction des coûts : Cette méthode permet de déployer des modèles LLM de grande taille sur du matériel moins puissant ou avec des contraintes mémoire strictes, sans nécessiter de réentraînement massif ou de fine-tuning complexe après compression.
Théorie : La connexion établie entre les LMO, les contraintes de norme nucléaire et la dynamique d'optimisation des LLM ouvre de nouvelles voies de recherche théorique sur les biais implicites des optimiseurs.

En résumé, NuMuon est une avancée significative qui transforme un optimiseur performant (Muon) en un outil de formation "prêt pour la compression", résolvant le problème de la fragilité des modèles Muon face aux compressions agressives.