Identifying and Evaluating Inactive Heads in Pretrained LLMs

Cette étude propose et évalue douze fonctions de score pour identifier les têtes d'attention inactives dans les grands modèles de langage, démontrant que plus de 12 % de ces têtes peuvent être supprimées sans perte significative de performance et que les méthodes basées uniquement sur les poids d'attention sous-estiment considérablement ce phénomène.

Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda, Micah Goldblum, Ronen Basri, Tom Goldstein, David Jacobs

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez un grand orchestre symphonique, le Transformer, qui compose la musique des intelligences artificielles modernes (les LLM). Dans cet orchestre, il y a des dizaines de sections de violons, de cuivres et de percussions. Chaque section est un "tête d'attention" (attention head).

Habituellement, on pense que pour jouer une belle symphonie, chaque musicien doit jouer quelque chose d'important. Mais cette nouvelle recherche, présentée à la conférence ICLR 2026, a posé une question simple : Et si certains musiciens ne faisaient que du bruit inutile ?

Voici l'explication de cette découverte, décortiquée avec des images simples.

1. Le problème : Les musiciens endormis

Dans les modèles d'intelligence artificielle, les "têtes d'attention" servent à regarder les mots d'une phrase et à décider lesquels sont importants.
Les chercheurs ont remarqué un phénomène étrange : souvent, une tête d'attention se concentre uniquement sur le tout premier mot de la phrase (comme un point d'exclamation ou un début de phrase), même si ce mot n'a aucun sens. C'est ce qu'ils appellent un "puits d'attention" (attention sink).

Pendant longtemps, les scientifiques pensaient : "Ah, si une tête regarde juste le premier mot, c'est qu'elle est 'endormie' ou inactive." Ils ont donc commencé à éteindre ces têtes pour alléger le modèle.

Mais la nouvelle étude dit : "Attendez une minute !"
C'est comme si vous regardiez un chef d'orchestre qui ne bouge pas la baguette, et vous concluez qu'il ne joue rien. Or, il pourrait très bien jouer un instrument très fort, mais vous ne le voyez pas parce que vous ne regardez que sa baguette.

2. La nouvelle méthode : Écouter le son, pas juste regarder la baguette

Les auteurs de l'article ont dit : "Ne nous contentons pas de regarder où la tête regarde (les poids d'attention). Regardons ce qu'elle produit réellement (la sortie)."

Ils ont inventé 12 nouvelles façons de mesurer si un musicien est utile ou non. Au lieu de seulement regarder si un musicien regarde le premier mot, ils ont mesuré :

  • Le volume du son produit par le musicien (la norme de la sortie).
  • Si le musicien joue des notes très faibles, presque inaudibles.
  • Si le musicien joue des notes qui s'annulent avec d'autres.

L'analogie du restaurant :
Imaginez un restaurant avec 12 cuisiniers.

  • L'ancienne méthode : On regarde qui passe le plus de temps à regarder la porte d'entrée. Si un cuisinier regarde la porte, on pense qu'il ne cuisine pas.
  • La nouvelle méthode : On regarde ce qu'il y a dans l'assiette qu'il sort de la cuisine. S'il sort une assiette vide ou avec une miette, alors lui, il est vraiment inutile, peu importe s'il regarde la porte ou pas.

3. La découverte choc : Plus de 12 % de musiciens inutiles !

En testant ces nouvelles méthodes sur 14 modèles d'intelligence artificielle différents (comme Llama, OLMo, Qwen), les chercheurs ont fait une découverte surprenante :

  • L'ancienne méthode (regarder le premier mot) pensait qu'environ 5 % des têtes étaient inutiles.
  • La nouvelle méthode (regarder la sortie réelle) a révélé qu'en réalité, plus de 12 % des têtes sont inactives !

C'est comme si on pensait qu'un orchestre de 100 musiciens avait 5 musiciens inutiles, alors qu'en réalité, il y en a 12 qui ne jouent rien du tout.

4. L'expérience : Éteindre les lumières sans éteindre la musique

Pour prouver que ces têtes étaient vraiment inutiles, les chercheurs ont fait une expérience radicale : ils ont coupé le courant à ces têtes inactives.

Ils ont pris les modèles, ont éteint les têtes qu'ils avaient identifiées comme "inutiles", et ont demandé au modèle de répondre à des questions de culture générale (le test MMLU).
Le résultat ? La musique n'a pas changé ! Le modèle a toujours obtenu un score quasi parfait (à moins de 1 % de différence).

Cela prouve que ces têtes étaient de véritables "passagers clandestins" dans le cerveau de l'IA. Elles consommaient de l'énergie et de la puissance de calcul sans rien apporter.

5. Ce que cela change pour l'avenir

Pourquoi est-ce important ?

  1. Économie d'énergie : Si on sait quelles têtes sont inutiles, on peut les désactiver dynamiquement. C'est comme éteindre les lumières dans une pièce vide pour économiser l'électricité. L'IA serait plus rapide et moins gourmande.
  2. Meilleure compréhension : Cela nous apprend que les IA ne fonctionnent pas toutes de la même manière. Parfois, une tête qui semble "dormante" parce qu'elle regarde le premier mot est en fait très active, mais produit un son très faible. Il faut écouter le son, pas juste regarder les yeux.
  3. Stabilité : Ils ont aussi découvert que peu importe si on entraîne l'IA avec des livres ou des conversations, ou si on la rend plus intelligente (fine-tuning), ces têtes inactives restent inactives. Elles sont comme des meubles inutiles dans une maison : on ne les utilise jamais, peu importe comment on décore la pièce.

En résumé

Cette recherche nous dit : Ne jugez pas un livre à sa couverture.
Dans les intelligences artificielles, ne jugez pas une partie du cerveau par ce qu'elle regarde, mais par ce qu'elle produit. En appliquant cette logique, nous découvrons que nos IA actuelles sont un peu "gaspilleuses" et qu'elles pourraient être beaucoup plus efficaces si on leur apprenait à se débarrasser de leurs 12 % de composants inutiles.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →