Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Each language version is independently generated for its own context, not a direct translation.

Le Titre du Film : « La moitié de la puissance de nos intelligences artificielles est gaspillée »

Imaginez que vous avez un chef cuisinier (l'IA) qui prépare un repas (comprend une phrase). Pour chaque ingrédient (chaque mot), ce chef suit une recette très complexe. Il prend le mot, le mélange dans un grand bol, le fait cuire dans un four très puissant, le sort, le remélange, et ainsi de suite.

Les chercheurs de cette étude se sont demandé : « Est-ce que ce chef a vraiment besoin de tout ce four et de tout ce mélange pour chaque ingrédient ? »

La réponse, c'est un grand OUI pour certains mots, mais un grand NON pour la plupart des autres. En fait, ils ont découvert que les deux tiers des efforts de ce chef sont inutiles dans la majorité des cas.

1. Le Problème : Le Gaspillage de « Non-linéarité »

Dans le langage technique, on parle de « non-linéarité ». Pour faire simple, c'est la capacité du cerveau de l'IA à faire des choses compliquées et créatives (comme comprendre l'ironie ou une blague).

L'idée reçue : On pensait que pour comprendre le langage, l'IA devait utiliser ce mode « super-puissant » à chaque instant, pour chaque mot.
La réalité : La plupart du temps, l'IA n'a besoin que d'une simple opération mathématique (un calcul linéaire, comme une addition simple) pour comprendre le mot. Utiliser le « super four » pour un mot simple comme « le » ou « et », c'est comme utiliser un camion de pompiers pour éteindre une bougie. C'est du gaspillage d'énergie et de temps.

2. La Solution : Le Portier Intelligents (Le « Gate »)

Les chercheurs ont créé un petit portier (qu'ils appellent un « gate »). Ce portier regarde le mot qui arrive et décide :

« Tu as l'air simple ? » -> Il t'envoie par le couloir rapide (le calcul linéaire, peu coûteux).
« Tu as l'air compliqué ? » -> Il t'envoie vers le chef avec le grand four (le calcul complet).

Le résultat magique :

Ce portier est très simple (il a presque la taille d'un petit bouton).
Il réussit à envoyer 25 % à 56 % des mots par le couloir rapide, sans que l'IA ne fasse d'erreur.
Dans certains cas, enlever le « super four » pour certains mots rend même l'IA plus intelligente ! Pourquoi ? Parce que le four trop puissant faisait parfois des erreurs (il « sur-apprenait »). En le retirant, on force l'IA à être plus précise.

3. Le Piège : On ne peut pas deviner le besoin en regardant juste le mot

C'est la partie la plus surprenante.
Au début, les chercheurs pensaient : « Ah, les mots comme "le", "un", "et" (les mots outils) sont simples, on peut les envoyer au couloir rapide. Les mots comme "manger", "courir" sont complexes, on les envoie au four. »

Ils avaient tort.
Imaginez que vous avez une liste de mots « interdits » (ceux qui ont besoin du four).

Si vous testez cette liste sur un texte de Wikipédia, ça marche à moitié.
Si vous prenez la même liste et que vous la testez sur un roman de fiction, elle ne fonctionne plus du tout.

L'analogie :
C'est comme si vous pensiez que « les gens qui portent des chapeaux rouges » ont toujours besoin d'un parapluie.

Dans un parc ensoleillé (un contexte), les chapeaux rouges n'ont pas besoin de parapluie.
Dans une tempête (un autre contexte), même les gens sans chapeau ont besoin d'un parapluie.
Le contexte est roi. Ce n'est pas le mot lui-même qui compte, c'est l'histoire dans laquelle il se trouve. Le portier doit donc lire la phrase entière pour décider, pas juste regarder le mot isolé.

4. L'Expérience : On a coupé le four et l'IA s'est améliorée

Pour prouver leur théorie, les chercheurs ont fait une expérience chirurgicale :

Ils ont pris un modèle d'IA (GPT-2).
Ils ont remplacé le « super four » de plusieurs couches centrales par des calculs simples et figés.
Ils ont laissé l'IA s'entraîner un peu pour s'adapter.

Résultat : L'IA est devenue meilleure ! Elle a compris le langage plus vite et avec moins d'erreurs.
C'est comme si vous aviez enlevé les roues de secours d'une voiture, et que la voiture roulait mieux parce qu'elle était plus légère et que le conducteur avait appris à conduire sans s'y fier.

5. Pourquoi ce n'est pas pareil pour tout le monde ?

Ils ont testé deux types de modèles d'IA (GPT-2 et Pythia).

GPT-2 est comme un vieux modèle de voiture : ses pièces sont très interchangeables, on peut enlever beaucoup de choses sans casser le moteur.
Pythia est comme une voiture de course très récente et complexe : on ne peut pas enlever grand-chose sans casser le moteur.
Cependant, plus les modèles deviennent gros (plus ils ont de « cerveaux »), plus ils ressemblent à GPT-2 et deviennent faciles à simplifier.

En Résumé : Ce qu'il faut retenir

On gaspille beaucoup d'énergie : Les IA actuelles utilisent des calculs trop complexes pour la plupart des mots.
Le contexte est tout : On ne peut pas prédire si un mot est « simple » ou « complexe » juste en le regardant. Il faut voir où il est placé dans la phrase.
L'avenir : Les prochaines générations d'IA devraient être conçues différemment. Au lieu d'avoir le même « cerveau » partout, elles devraient avoir des zones très puissantes pour les débuts et fins de phrases, et des zones très légères et rapides pour le milieu.
Le gain : En faisant cela, on pourrait avoir des IA aussi intelligentes, mais qui consomment beaucoup moins d'électricité et qui sont plus rapides.

C'est un peu comme si on découvrait que, pour voyager de Paris à Lyon, on n'a pas besoin d'un avion à réaction pour tout le trajet. On peut prendre un TGV pour la majeure partie du chemin, et réserver l'avion uniquement pour les derniers kilomètres difficiles. C'est plus efficace, moins cher, et ça arrive à l'heure !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage basés sur l'architecture Transformer reposent massivement sur des couches de Perceptrons Multicouches (MLP) non linéaires. À chaque couche et pour chaque token, ces MLP appliquent des transformations non linéaires complexes (via des fonctions d'activation comme GELU) qui dominent le nombre de paramètres et la charge de calcul.

L'hypothèse universelle est que cette non-linéarité est essentielle : sans elle, le réseau se réduirait à une simple transformation affine incapable d'apprendre les fonctions complexes du langage. Cependant, l'auteur remet en cause cette prémisse en suggérant qu'une grande partie de ces calculs non linéaires est superflue, voire nuisible, et que l'on pourrait identifier précisément "quelle moitié" est gaspillée.

2. Méthodologie

L'étude adopte une approche systématique combinant approximation linéaire, routage adaptatif et analyse de la généralisation.

A. Approximation Linéaire et Coût de Remplacement

Pour chaque couche $\ell$ de plusieurs modèles (GPT-2 et Pythia), les auteurs ont :

Collecté des activations d'entrée et de sortie du MLP sur un corpus (WikiText-103).
Fitté un surrogat linéaire $\hat{f}(x) = Wx + b$ en utilisant une régression ridge (pseudo-inverse régularisé).
Mesuré le coût en perplexité (PPL) en remplaçant le MLP complet par ce surrogat linéaire ("All-Linear").

B. Routage Adaptatif (Gating)

Au lieu de remplacer le MLP en bloc, les auteurs ont entraîné un portail (gate) pour décider, token par token, d'utiliser le MLP complet ou son surrogat linéaire.

Le Portail : Une simple régression logistique avec $d+1$ paramètres (un seul hyperplan dans l'espace des activations).
Entraînement : Classification binaire basée sur la différence de perte ( $\delta = L_{lin} - L_{full}$ ). Si $\delta$ est faible, le token est routé vers le chemin linéaire.

C. Analyse de la Prédictibilité

Pour comprendre ce que le portail apprend, les auteurs ont décomposé l'entrée du MLP en deux composantes :

Identité du token (embedding + position).
Contribution contextuelle (ce qui a été ajouté par l'attention et les couches précédentes).
Ils ont également testé la stabilité des listes de tokens "critiques" (No-Fly lists) sur différents corpus (WikiText vs LAMBADA).

D. Expériences de Linéarisation Progressive

Pour valider la faisabilité, les auteurs ont linéarisé progressivement les couches centrales d'un modèle GPT-2 Medium, en permettant aux autres couches de s'adapter via un fine-tuning minimal, puis avec un budget d'entraînement complet.

3. Résultats Clés

A. La Majorité des Calculs MLP sont Quasi-Linéaires

Coût Négligeable : Dans GPT-2 Medium, 70 % des couches peuvent être entièrement linéarisées avec un coût de perplexité inférieur à 3 %.
Amélioration de Performance : À 4 couches sur 23 (GPT-2 Medium), le remplacement par un MLP linéaire améliore la perplexité, suggérant que le MLP original souffrait de surapprentissage (overfitting) à ces niveaux.
Échelle et Architecture :
- GPT-2 : Très linéarisable. GPT-2 Large (774M) a 11 couches sur 36 qui battent la baseline avec une linéarisation totale.
- Pythia : Plus coûteux à linéariser, mais la tendance s'améliore avec la taille. À 2.8B, une couche (L3) bat la baseline, et les couches centrales (L7-L15) coûtent moins de 4 %.
- Seuil Critique : La couche 0 (embedding) de Pythia-2.8B est catastrophique à linéariser (+513 % de perplexité), contrairement à GPT-2.

B. Le Routage Basé sur l'Identité du Token est un Échec

Corrélation Nulle : Il est impossible de prédire le besoin de non-linéarité à partir de l'identité du token (mot fonction vs mot de contenu). La corrélation entre les listes de tokens "critiques" d'un corpus et un autre est proche de zéro ( $r < 0.05$ ).
Le Contexte est Roi : Le portail prend sa décision uniquement en fonction de la contribution contextuelle (ce que le réseau a déjà calculé), et non du token lui-même. Un même mot peut nécessiter une non-linéarité dans un contexte et non dans un autre.

C. Efficacité du Routage Adaptatif

Malgré une précision de classification faible au niveau de l'instance individuelle (AUC ~0.60), le portail réussit à router 25 à 56 % des calculs vers le chemin linéaire avec un coût de perplexité négligeable (<1 %).
Cela fonctionne car la distribution des besoins en non-linéarité est fortement biaisée : la majorité des calculs sont déjà quasi-linéaires. Le portail agit comme un détecteur de la "queue" rare où la non-linéarité est critique.

D. Preuve de Concept : Linéarisation Progressive

Coût Zéro : 5 couches sur 24 de GPT-2 Medium peuvent être remplacées par des matrices linéaires figées avec un coût de perplexité nul après un fine-tuning minimal.
Gain Significatif : Avec un fine-tuning sur un corpus plus large (117.9M tokens), la linéarisation de 4 couches améliore la perplexité de 10,2 %.
Approche en Deux Phases : Une méthode combinant linéarisation et apprentissage de portes (gating) atteint une perplexité de 19.00, soit une amélioration de 17,3 % par rapport au modèle original, battant un contrôle de fine-tuning standard.

4. Contributions Principales

Quantification : Première mesure systématique de l'utilisation réelle de la non-linéarité MLP sur six modèles et deux architectures.
Routage Minimal : Démonstration qu'un classifieur linéaire simple ( $d+1$ paramètres) suffit pour router efficacement les calculs.
Résultat Négatif Fort : Preuve que le besoin de non-linéarité ne dépend pas de l'identité du token mais du contexte, rendant obsolètes les méthodes de routage basées sur des tables de hachage ou des listes de tokens.
Régularisation par Linéarisation : Identification de couches où le MLP complet nuit à la généralisation (surapprentissage), et où sa version linéaire améliore les performances.
Dépendance Architecturale : Mise en évidence d'une différence fondamentale entre les architectures séquentielles (GPT-2) et parallèles (Pythia/GPT-NeoX) concernant la linéarisabilité.

5. Signification et Implications

Pour l'Inférence et l'Efficacité

Pas de raccourci token-based : Les systèmes tentant d'éviter le MLP pour certains tokens basés sur leur identité (ex: mots de fonction) sont voués à l'échec car ils ne généralisent pas.
Opportunité de Compression : Une grande partie de la capacité computationnelle des MLPs dans les couches centrales est gaspillée. On pourrait réduire les FLOPs de ~21 % en utilisant des portes adaptatives sans perte de performance.

Pour la Conception Architecturale Future

L'article propose de repenser l'allocation de la capacité non linéaire :

MLPs à Capacité Variable : Concentrer les MLPs non linéaires complets aux couches d'entrée et de sortie (où la non-linéarité est critique), et utiliser des projections linéaires ou des MLPs réduits dans les couches centrales.
Architectures Hybrides : Intégrer nativement des chemins linéaires et non linéaires, permettant au modèle d'apprendre à utiliser la non-linéarité uniquement lorsque le contexte l'exige.
Optimisation de l'Architecture : Le choix entre calcul séquentiel (GPT-2) et parallèle (Pythia) impacte directement la linéarisabilité. Les architectures séquentielles semblent plus propices à l'optimisation par linéarisation.

Conclusion

L'article démontre que la non-linéarité dans les Transformers n'est pas uniformément nécessaire. Une grande partie du "budget" non linéaire est gaspillée, en particulier dans les couches centrales des architectures séquentielles. En remplaçant ces calculs par des approximations linéaires ou en utilisant un routage contextuel adaptatif, il est possible d'améliorer la performance du modèle (en réduisant le surapprentissage) tout en économisant des ressources computationnelles. Cela ouvre la voie à une nouvelle génération de modèles conçus avec une allocation non uniforme de la capacité non linéaire.