Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Cette étude démontre que la majorité des non-linéarités des MLP dans les transformers sont redondantes et peuvent être remplacées par des surrogates linéaires contextuels ou des matrices gelées, permettant d'économiser jusqu'à la moitié des ressources de calcul tout en améliorant les performances du modèle.

Peter Balogh

Publié 2026-03-05
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Le Titre du Film : « La moitié de la puissance de nos intelligences artificielles est gaspillée »

Imaginez que vous avez un chef cuisinier (l'IA) qui prépare un repas (comprend une phrase). Pour chaque ingrédient (chaque mot), ce chef suit une recette très complexe. Il prend le mot, le mélange dans un grand bol, le fait cuire dans un four très puissant, le sort, le remélange, et ainsi de suite.

Les chercheurs de cette étude se sont demandé : « Est-ce que ce chef a vraiment besoin de tout ce four et de tout ce mélange pour chaque ingrédient ? »

La réponse, c'est un grand OUI pour certains mots, mais un grand NON pour la plupart des autres. En fait, ils ont découvert que les deux tiers des efforts de ce chef sont inutiles dans la majorité des cas.


1. Le Problème : Le Gaspillage de « Non-linéarité »

Dans le langage technique, on parle de « non-linéarité ». Pour faire simple, c'est la capacité du cerveau de l'IA à faire des choses compliquées et créatives (comme comprendre l'ironie ou une blague).

  • L'idée reçue : On pensait que pour comprendre le langage, l'IA devait utiliser ce mode « super-puissant » à chaque instant, pour chaque mot.
  • La réalité : La plupart du temps, l'IA n'a besoin que d'une simple opération mathématique (un calcul linéaire, comme une addition simple) pour comprendre le mot. Utiliser le « super four » pour un mot simple comme « le » ou « et », c'est comme utiliser un camion de pompiers pour éteindre une bougie. C'est du gaspillage d'énergie et de temps.

2. La Solution : Le Portier Intelligents (Le « Gate »)

Les chercheurs ont créé un petit portier (qu'ils appellent un « gate »). Ce portier regarde le mot qui arrive et décide :

  • « Tu as l'air simple ? » -> Il t'envoie par le couloir rapide (le calcul linéaire, peu coûteux).
  • « Tu as l'air compliqué ? » -> Il t'envoie vers le chef avec le grand four (le calcul complet).

Le résultat magique :

  • Ce portier est très simple (il a presque la taille d'un petit bouton).
  • Il réussit à envoyer 25 % à 56 % des mots par le couloir rapide, sans que l'IA ne fasse d'erreur.
  • Dans certains cas, enlever le « super four » pour certains mots rend même l'IA plus intelligente ! Pourquoi ? Parce que le four trop puissant faisait parfois des erreurs (il « sur-apprenait »). En le retirant, on force l'IA à être plus précise.

3. Le Piège : On ne peut pas deviner le besoin en regardant juste le mot

C'est la partie la plus surprenante.
Au début, les chercheurs pensaient : « Ah, les mots comme "le", "un", "et" (les mots outils) sont simples, on peut les envoyer au couloir rapide. Les mots comme "manger", "courir" sont complexes, on les envoie au four. »

Ils avaient tort.
Imaginez que vous avez une liste de mots « interdits » (ceux qui ont besoin du four).

  • Si vous testez cette liste sur un texte de Wikipédia, ça marche à moitié.
  • Si vous prenez la même liste et que vous la testez sur un roman de fiction, elle ne fonctionne plus du tout.

L'analogie :
C'est comme si vous pensiez que « les gens qui portent des chapeaux rouges » ont toujours besoin d'un parapluie.

  • Dans un parc ensoleillé (un contexte), les chapeaux rouges n'ont pas besoin de parapluie.
  • Dans une tempête (un autre contexte), même les gens sans chapeau ont besoin d'un parapluie.
  • Le contexte est roi. Ce n'est pas le mot lui-même qui compte, c'est l'histoire dans laquelle il se trouve. Le portier doit donc lire la phrase entière pour décider, pas juste regarder le mot isolé.

4. L'Expérience : On a coupé le four et l'IA s'est améliorée

Pour prouver leur théorie, les chercheurs ont fait une expérience chirurgicale :

  1. Ils ont pris un modèle d'IA (GPT-2).
  2. Ils ont remplacé le « super four » de plusieurs couches centrales par des calculs simples et figés.
  3. Ils ont laissé l'IA s'entraîner un peu pour s'adapter.

Résultat : L'IA est devenue meilleure ! Elle a compris le langage plus vite et avec moins d'erreurs.
C'est comme si vous aviez enlevé les roues de secours d'une voiture, et que la voiture roulait mieux parce qu'elle était plus légère et que le conducteur avait appris à conduire sans s'y fier.

5. Pourquoi ce n'est pas pareil pour tout le monde ?

Ils ont testé deux types de modèles d'IA (GPT-2 et Pythia).

  • GPT-2 est comme un vieux modèle de voiture : ses pièces sont très interchangeables, on peut enlever beaucoup de choses sans casser le moteur.
  • Pythia est comme une voiture de course très récente et complexe : on ne peut pas enlever grand-chose sans casser le moteur.
    Cependant, plus les modèles deviennent gros (plus ils ont de « cerveaux »), plus ils ressemblent à GPT-2 et deviennent faciles à simplifier.

En Résumé : Ce qu'il faut retenir

  1. On gaspille beaucoup d'énergie : Les IA actuelles utilisent des calculs trop complexes pour la plupart des mots.
  2. Le contexte est tout : On ne peut pas prédire si un mot est « simple » ou « complexe » juste en le regardant. Il faut voir où il est placé dans la phrase.
  3. L'avenir : Les prochaines générations d'IA devraient être conçues différemment. Au lieu d'avoir le même « cerveau » partout, elles devraient avoir des zones très puissantes pour les débuts et fins de phrases, et des zones très légères et rapides pour le milieu.
  4. Le gain : En faisant cela, on pourrait avoir des IA aussi intelligentes, mais qui consomment beaucoup moins d'électricité et qui sont plus rapides.

C'est un peu comme si on découvrait que, pour voyager de Paris à Lyon, on n'a pas besoin d'un avion à réaction pour tout le trajet. On peut prendre un TGV pour la majeure partie du chemin, et réserver l'avion uniquement pour les derniers kilomètres difficiles. C'est plus efficace, moins cher, et ça arrive à l'heure !