The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Each language version is independently generated for its own context, not a direct translation.

🏙️ La Ville des Mots : Comprendre les Géants et les Puits

Imaginez que les grands modèles de langage (comme ceux qui animent les chatbots) sont de villes immenses et complexes. Dans cette ville, des millions de « mots » (des tokens) voyagent à travers des rues (les couches du réseau) pour être transformés en réponses intelligentes.

Les chercheurs de cet article ont découvert deux phénomènes étranges qui se produisent toujours ensemble dans ces villes modernes, mais ils ont enfin compris pourquoi et comment ils fonctionnent séparément.

1. Les « Éclairs » (Massive Activations) : Les Géants du Quartier

Imaginez que dans cette ville, il y a quelques bâtiments très spécifiques qui, à certains moments, deviennent énormes, comme des gratte-ciels géants qui dépassent tout le reste.

Ce que c'est : Ce sont des « activations massives ». Ce sont de très petits groupes de mots (souvent le tout premier mot d'une phrase ou un point d'arrêt comme un point ou un saut de ligne) qui deviennent extrêmement puissants dans certaines « voies » (canaux) du cerveau du modèle.
L'analogie : C'est comme si, dès le début de la journée, un seul bâtiment se gonflait d'électricité. Cette énergie ne disparaît pas ; elle reste là, flottant dans les rues, jusqu'à ce qu'un autre bâtiment, plus tard dans la journée, vienne l'annuler exactement.
Le rôle : Ces « Éclairs » agissent comme des paramètres cachés. Ils aident le modèle à se souvenir de certaines règles globales, un peu comme des poteaux de signalisation géants qui restent fixes tout au long du voyage.

2. Les « Puits » (Attention Sinks) : Le Tiroir à Ordures de l'Attention

Maintenant, imaginez que dans cette ville, il y a un endroit spécial où tout le monde a tendance à regarder, même si cet endroit n'a rien de spécial à dire.

Ce que c'est : Ce sont les « puits d'attention ». Le modèle accorde une attention démesurée à certains mots (souvent le premier mot), même si ce mot n'est pas pertinent pour la phrase actuelle.
L'analogie : C'est comme un tiroir à ordures ou un trou noir dans la ville. Au lieu de distribuer l'attention (l'intérêt) équitablement entre tous les mots, le modèle jette une grosse partie de son attention dans ce « puits » juste pour se stabiliser.
Le rôle : Cela aide le modèle à gérer les phrases courtes. C'est une astuce pour dire : « Si je ne sais pas quoi faire avec ce mot lointain, je vais juste regarder le premier mot pour rester calme. »

🔗 Le Lien Mystérieux : Pourquoi voyagent-ils ensemble ?

Pendant longtemps, les scientifiques pensaient que ces deux phénomènes étaient inséparables, comme le beurre et la confiture. Mais cet article révèle que ce n'est pas vrai.

Le coupable : La Normalisation (Le Filtre de Sécurité)
La ville moderne utilise un système de sécurité appelé « Normalisation Pré-norm ».

Ce qui se passe : Quand le « Géant » (l'Éclair) passe par ce filtre, le filtre le réduit à une taille normale, mais il le transforme en quelque chose de très spécial : un objet très simple, très stable et presque identique pour tous les Géants.
Le résultat : Parce que tous les Géants deviennent identiques après le filtre, le « Puits d'attention » les voit tous comme le même objet fixe. Le modèle dit alors : « Ah, c'est le Puits ! Je vais regarder là-bas. »

L'expérience clé :
Les chercheurs ont joué avec les plans de la ville (l'architecture du modèle) :

Ils ont changé le filtre de sécurité (la normalisation).
Résultat : Les « Éclairs » ont disparu (plus de géants), mais les « Puits » sont restés !
Conclusion : Les deux phénomènes sont liés par accident à cause de la façon dont la ville est construite, mais ils ont des fonctions différentes. On peut supprimer l'un sans tuer l'autre.

💡 Pourquoi est-ce important pour nous ?

Imaginez que vous voulez optimiser cette ville pour qu'elle soit plus rapide et consomme moins d'énergie (pour les téléphones ou les serveurs).

Si vous supprimez les Éclairs : Vous pouvez rendre le modèle plus léger et plus facile à stocker (quantification) sans casser son intelligence.
Si vous supprimez les Puits : Vous pouvez forcer le modèle à mieux comprendre les phrases longues, car il ne dépendra plus du « tiroir à ordures » pour se stabiliser.
Le grand secret : On n'a pas besoin de ces deux choses pour que le modèle fonctionne. C'est juste une « coïncidence architecturale » dans les modèles actuels.

🎯 En résumé

Les Éclairs sont des géants temporaires qui aident à stabiliser le modèle.
Les Puits sont des aimants qui attirent l'attention pour gérer les phrases courtes.
Le Filtre (Normalisation) est ce qui les lie ensemble par erreur.
La bonne nouvelle : En changeant un peu la construction de la ville (l'architecture), on peut éliminer ces phénomènes gênants sans perdre en intelligence, rendant les futurs modèles plus efficaces et plus propres.

C'est comme si on découvrait que le bruit de la ville venait d'un tuyau mal branché, et qu'en le débranchant, on peut garder la ville silencieuse tout en gardant ses lumières allumées !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage (LLM) basés sur l'architecture Transformer pré-norm (comme Llama et Qwen) présentent deux phénomènes récurrents et souvent corrélés qui restent mal compris :

Les activations massives (Massive Activations) : Un petit nombre de tokens (souvent le premier token ou des délimiteurs) présentent des valeurs extrêmes (outliers) dans quelques canaux spécifiques de la représentation cachée, dépassant souvent l'échelle typique de plusieurs ordres de grandeur.
Les puits d'attention (Attention Sinks) : Certains tokens attirent une masse d'attention disproportionnée à travers de nombreuses têtes et couches, indépendamment de leur pertinence sémantique.

Bien que la littérature précédente ait noté leur co-occurrence fréquente, la relation causale entre ces deux phénomènes et leurs rôles fonctionnels respectifs restaient flous. L'objectif de ce papier est de déterminer si cette co-occurrence est une nécessité fonctionnelle ou un artefact architectural, et d'expliquer les mécanismes sous-jacents.

2. Méthodologie

Les auteurs ont adopté une approche combinant analyse théorique, observation empirique et ablations systématiques :

Analyse Mécaniste : Ils ont tracé le cycle de vie des activations massives à travers les couches du réseau (Llama 2, Llama 3, Qwen 2.5/3) pour identifier les blocs responsables de leur génération (« step-up ») et de leur neutralisation (« step-down »).
Modélisation Mathématique : Ils ont démontré que les blocs feed-forward basés sur SwiGLU agissent comme des amplificateurs quadratiques directionnels. Ils ont prouvé que pour certains tokens, les poids du réseau créent une direction dominante où les activations sont amplifiées de manière quadratique.
Rôle de la Normalisation : L'étude se concentre sur l'impact de la configuration Pre-Norm (RMSNorm appliqué avant les blocs) et de l'accumulation résiduelle additive.
Ablations Ciblées : Pour établir la causalité, les auteurs ont entraîné des modèles de zéro (7B paramètres) en modifiant des hyperparamètres d'optimisation, la conception des blocs feed-forward, les configurations de normalisation (ex: Sandwich Norm, QKNorm, DynamicTanh), les paramètres des têtes d'attention et les distributions de longueur de contexte.

3. Contributions Clés et Résultats

A. Anatomie des Activations Massives (Les « Spikes »)

Origine : Les activations massives sont générées par un ou deux blocs feed-forward précoces (« step-up blocks ») agissant comme des amplificateurs quadratiques. Les canaux affectés correspondent à des matrices quadratiques ( $U_k$ ) ayant une norme de Frobenius exceptionnellement élevée et une direction propre dominante partagée.
Propagation : Grâce à la connexion résiduelle additive des Transformers Pre-Norm, ces valeurs extrêmes persistent à travers les couches intermédiaires.
Neutralisation : Des blocs tardifs (« step-down blocks ») injectent des valeurs opposées pour annuler ces outliers avant la sortie finale.
Déclencheurs : Les tokens déclencheurs sont principalement le premier token (position 0) et les délimiteurs, car leur représentation initiale s'aligne naturellement avec la direction d'amplification critique.

B. Anatomie des Puits d'Attention (Les « Sinks »)

Mécanisme de Formation : La normalisation (RMSNorm) joue un rôle crucial. Elle transforme les représentations des tokens à activations massives en vecteurs sparses et quasi-constants.
- La normalisation borne les magnitudes extrêmes.
- Elle supprime les canaux non-outliers, laissant une représentation concentrée sur quelques dimensions.
- Résultat : Des tokens sémantiquement différents (mais tous étant des « spikes ») sont projetés vers le même vecteur constant après normalisation.
Conséquence Géométrique : Ces vecteurs constants forment des clés d'attention ( $K$ ) qui occupent un sous-espace de très faible dimension (1 ou 2 dimensions). Dans certaines têtes d'attention, l'espace des requêtes ( $Q$ ) s'aligne géométriquement plus près de ces clés « puits » que des clés normales, créant un écart de logit important et attirant l'attention.

C. Découplage des Phénomènes (Résultats d'Ablation)

C'est la contribution majeure du papier : Les activations massives et les puits d'attention sont des artefacts architecturaux découplables.

Suppression des Spikes sans éliminer les Sinks :
- L'utilisation de Sandwich Norm (ajout d'une normalisation après le bloc) ou de QKNorm (normalisation uniquement sur Q et K) élimine les activations massives en empêchant l'accumulation de valeurs non bornées dans le flux résiduel.
- Pourtant, le ratio de puits d'attention reste élevé. Le modèle trouve d'autres stratégies pour créer des puits.
Suppression des Sinks sans éliminer les Spikes :
- L'utilisation de Gated Attention conditionnelle (où la porte dépend de la représentation courante) élimine les puits d'attention, même si les activations massives persistent. Cela suggère que les puits sont une solution de contournement (« workaround ») pour le routage de l'information.
Influence de la Longueur de Contexte :
- Les puits d'attention sont principalement induits par l'entraînement sur des séquences courtes. Lorsqu'on entraîne exclusivement sur de longs contextes, le ratio de puits s'effondre, indiquant qu'ils servent à gérer les dépendances à court terme dans un mécanisme d'attention global.

4. Signification et Implications

Compréhension Théorique : Le papier démontre que la co-occurrence des spikes et des sinks n'est pas une nécessité fonctionnelle intrinsèque aux Transformers, mais le résultat prévisible de l'interaction entre la configuration Pre-Norm, l'accumulation résiduelle et la distribution de la longueur de contexte.
Rôle Fonctionnel :
- Les activations massives agissent comme des paramètres implicites globaux (constants à travers les couches).
- Les puits d'attention agissent comme des modulateurs locaux pour les têtes d'attention, favorisant les dépendances à court terme et servant de mécanisme de routage implicite.
Applications Pratiques :
- Quantification et Élagage : Puisque les deux phénomènes peuvent être supprimés indépendamment sans dégrader les performances de modélisation du langage, les ingénieurs peuvent choisir d'éliminer les spikes (pour faciliter la quantification) tout en préservant les mécanismes de routage des puits, ou vice-versa.
- Conception Architecturale : L'étude suggère que des architectures alternatives (sans normalisation, avec gating dynamique) peuvent éviter ces artefacts tout en maintenant, voire en améliorant, l'efficacité de l'inférence à long contexte.

En résumé, ce travail fournit une explication mécaniste complète reliant les anomalies numériques (spikes) aux comportements d'attention (sinks), ouvrant la voie à des architectures de modèles plus robustes et efficaces.