Demystifying When Pruning Works via Representation Hierarchies

Each language version is independently generated for its own context, not a direct translation.

🌳 Le Grand Élagage des Arbres de Connaissance : Pourquoi ça marche pour certains, mais pas pour d'autres ?

Imaginez que les grands modèles de langage (comme ceux qui écrivent des histoires ou répondent à des questions) soient de gigantesques bibliothèques vivantes. Elles contiennent des millions de livres (paramètres) et des milliers de bibliothécaires (couches de neurones) qui travaillent ensemble.

Pour les rendre plus rapides et moins gourmands en énergie, les chercheurs pratiquent l'élagage (ou pruning) : ils retirent des livres inutiles ou licencient certains bibliothécaires.

Le problème ? Cela fonctionne très bien pour certaines tâches, mais c'est un désastre total pour d'autres. Pourquoi ?

Ce papier de recherche a découvert la raison en regardant comment l'information voyage à l'intérieur de la bibliothèque. Ils ont divisé le processus en trois étapes clés, que nous allons comparer à un voyage en train.

🚂 Le Voyage en Trois Gares

Pour comprendre pourquoi l'élagage échoue parfois, il faut suivre le voyage d'une idée à travers trois "gares" (ou espaces de représentation) :

1. La Gare des Idées (Espace d'Embedding)

C'est le départ. L'idée arrive sous forme de mots bruts.

Ce qui se passe : Même si on retire des bibliothécaires (élagage), l'idée principale reste très stable. C'est comme si le train avait perdu quelques wagons, mais le moteur et la direction sont toujours là.
Résultat : La bibliothèque fonctionne bien pour des tâches simples comme choisir une réponse parmi plusieurs (QCM) ou retrouver un document. Ici, on a juste besoin de l'idée de base, pas d'une histoire complexe.

2. La Gare des Prédictions (Espace Logit)

C'est l'étape intermédiaire. La bibliothèque commence à réfléchir : "Quelle est la meilleure réponse ?".

Ce qui se passe : Étonnamment, cette étape est encore plus résistante ! Les chercheurs ont découvert que le passage des idées brutes aux prédictions agit comme un filtre de sécurité. Même si l'élagage a créé de petits bugs, ce filtre les lisse et les atténue.
Résultat : Pour les tâches non-génératives (comme classer un texte), on s'arrête souvent ici. Le modèle a encore son "boussole" intacte.

3. La Gare du Chaos (Espace de Probabilité)

C'est l'étape finale, juste avant de dire le mot à voix haute. Ici, on transforme les prédictions en pourcentages de probabilité (ex: "Il y a 90% de chances que ce soit le mot 'Chat'").

Le problème majeur : C'est ici que la magie noire opère. La transformation mathématique qui convertit les prédictions en pourcentages (appelée Softmax) agit comme un amplificateur de volume.
L'analogie : Imaginez un petit écho dans une salle de bain (le bug causé par l'élagage). Si vous parlez doucement, on ne l'entend pas. Mais si vous mettez un mégaphone (la transformation non-linéaire), ce petit écho devient un cri assourdissant qui déforme tout.
Résultat : Pour les tâches de génération (écrire une histoire, coder, résoudre un problème étape par étape), le modèle doit choisir un mot, puis le réutiliser pour choisir le suivant, et ainsi de suite.

🔄 L'Effet Boule de Neige : Pourquoi la génération échoue

C'est ici que tout se joue.

Pour un QCM (Tâche non-générative) : Le modèle regarde la question, va jusqu'à la gare des probabilités, choisit la meilleure option (A, B, C ou D) et s'arrête. Le "cri" amplifié par le mégaphone n'a pas le temps de faire des dégâts car le voyage est court.
Pour écrire une histoire (Tâche générative) : Le modèle écrit un mot, puis le remet dans la machine pour écrire le suivant.
- Si le premier mot est légèrement faux à cause de l'amplification (le mégaphone), le modèle utilise ce mot faux comme base pour le suivant.
- L'erreur s'accumule, s'agrandit et se propage.
- Résultat : Après quelques phrases, le modèle commence à dire des bêtises, répéter des mots ou devenir incohérent. C'est comme si un petit dérapage au départ d'une course de ski finissait par une chute catastrophique à la fin de la piste.

🎯 La Conclusion Simple

Ce papier nous apprend que :

L'élagage est sûr pour les tâches qui demandent de choisir ou de retrouver une information (comme un QCM), car le modèle s'arrête avant que l'amplificateur de chaos ne fasse trop de dégâts.
L'élagage est dangereux pour les tâches qui demandent de créer du texte (comme écrire un roman), car les petites erreurs sont amplifiées à chaque mot, créant une boule de neige d'erreurs qui détruit la qualité de la réponse.

En résumé : Vous pouvez couper des branches dans un arbre pour qu'il soit plus léger s'il doit juste tenir debout (recherche/choix). Mais si cet arbre doit grandir et produire des fruits complexes (génération), couper des branches risque de faire tout l'arbre s'effondrer, car chaque fruit dépend du précédent.

Cette découverte aide les ingénieurs à savoir quand utiliser l'élagage (pour les tâches de classification) et quand éviter de le faire (pour les assistants qui écrivent des histoires), afin d'éviter de créer des robots qui parlent n'importe quoi.

Each language version is independently generated for its own context, not a direct translation.

Titre : Démystifier le moment où la taille fonctionne grâce aux hiérarchies de représentation

Auteurs : Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li.

1. Problématique

Le pruning (élagage) des réseaux de neurones est une technique de compression visant à supprimer les paramètres ou architectures moins importants pour améliorer l'efficacité computationnelle et réduire la mémoire. Cependant, les auteurs observent une incohérence fondamentale dans les résultats de l'élagage sur les grands modèles de langage (LLM) :

Tâches non-génératives : Les modèles élagués maintiennent souvent des performances élevées sur des tâches comme la récupération d'information (retrieval) ou la classification à choix multiples.
Tâches génératives : Les mêmes modèles subissent souvent un effondrement catastrophique des performances lors de la génération de texte (séquences autoregressives).

L'objectif de l'article est de comprendre pourquoi cette divergence existe et d'identifier les mécanismes sous-jacents qui rendent l'élagage efficace pour certaines tâches mais néfaste pour d'autres.

2. Méthodologie

Les auteurs adoptent une perspective hiérarchique de représentation pour analyser le flux de calcul interne d'un modèle de langage. Ils décomposent le processus d'inférence en trois espaces séquentiels distincts :

Espace d'embedding : Les représentations cachées (hidden states) avant la projection finale.
Espace des logits : Les sorties pré-softmax (avant la normalisation).
Espace des probabilités : Les distributions post-softmax (après l'application de la fonction softmax).

Approche analytique :

Analyse Empirique : Ils mesurent la similarité (cosinus) et la divergence (KL) entre les sorties d'un modèle de base et d'un modèle élagué à chaque étape de la génération et à travers les différentes couches.
Analyse Théorique : Ils utilisent des développements de Taylor d'ordre deux pour modéliser mathématiquement comment les perturbations induites par l'élagage ( $\Delta h$ , $\Delta z$ , $\Delta p$ ) se propagent et sont amplifiées à travers les transformations linéaires et non linéaires du modèle.
Expérimentations : Ils testent diverses stratégies d'élagage (inter-couche comme Layer Drop et intra-couche comme Wanda ou SparseGPT) sur plusieurs modèles (Mistral, Llama, Qwen) et tâches (GSM8K, HumanEval, HellaSwag, MMLU).

3. Contributions Clés et Résultats

A. La Hiérarchie de Robustesse

L'analyse révèle une hiérarchie claire de la sensibilité aux perturbations :

Espace d'Embedding (Robuste) : Les représentations cachées restent stables même après une suppression significative de paramètres. Les perturbations angulaires sont minimes.
Espace des Logits (Très Robuste) : La transformation linéaire de l'embedding vers les logits (via la tête du modèle LM) atténue encore davantage les perturbations. La similarité cosinus entre les logits du modèle original et élagué est souvent supérieure à celle des embeddings.
Espace des Probabilités (Sensible) : C'est ici que la catastrophe se produit. La transformation non linéaire (Softmax) des logits vers les probabilités amplifie considérablement les petites perturbations résiduelles.

B. Le Rôle Amplificateur du Softmax

Les auteurs démontrent théoriquement (Théorème 2) que la divergence dans l'espace des probabilités est dominée par la variance pondérée des perturbations des logits ( $\Delta z$ ) et la température ( $T$ ).

Même si les logits sont très similaires, le softmax transforme ces petites différences en déviations massives dans la distribution de probabilité.
Cela explique pourquoi un modèle élagué peut produire des logits "corrects" en apparence, mais des distributions de probabilité totalement erronées.

C. Propagation des Erreurs (Boucle de rétroaction)

Tâches Génératives : La génération autoregressive crée une boucle de rétroaction. Une petite erreur dans la distribution de probabilité à l'étape $t$ conduit à un token erroné, qui devient le contexte pour l'étape $t+1$ . Les erreurs s'accumulent et se propagent, menant rapidement à un effondrement de la cohérence du texte (hallucinations, répétitions).
Tâches Non-Génératives : Ces tâches (ex: classification, retrieval) ne dépendent souvent que d'un seul pas de décision ou d'un petit sous-ensemble de tokens (ex: A, B, C, D). Même si la distribution globale des probabilités change, la probabilité relative des tokens candidats pertinents reste souvent stable, préservant la décision finale.

D. Résultats Expérimentaux

Tableau 1 & Figure 1 : Sur des tâches comme MMLU ou HellaSwag (non-génératives), la suppression de 8 couches (sur ~32) entraîne une baisse de performance négligeable. En revanche, sur GSM8K ou HumanEval (génératives), la performance chute à 0% avec la même suppression.
Figure 7 : La similarité cosinus dans l'espace des probabilités chute drastiquement au fil des étapes de génération, confirmant la propagation des erreurs.
Figure 8 : Pour les tâches à choix multiples, les probabilités des tokens candidats (souvent dans la queue de la distribution) restent stables, contrairement aux tokens les plus probables de la distribution globale.

4. Signification et Implications

Pourquoi cela compte ?

Ce travail démystifie le mythe selon lequel un modèle élagué est "bon" ou "mauvais" de manière globale. Il démontre que la robustesse à l'élagage est dépendante de la tâche et du niveau de représentation utilisé pour la prise de décision.

Guides Pratiques

Évaluation Ciblée : Évaluer un modèle élagué uniquement sur des tâches de classification ou de retrieval est trompeur pour prédire ses performances en génération. Il est crucial d'inclure des tâches génératives dans les benchmarks de compression.
Stratégies de Pruning : Pour les tâches génératives, l'élagage doit être beaucoup plus conservateur, ou nécessiter un fine-tuning post-élagage pour réaligner les distributions de probabilité, car la transformation non linéaire est intrinsèquement fragile aux perturbations structurelles.
Compréhension Théorique : La distinction entre la stabilité des espaces linéaires (embeddings/logits) et l'instabilité des espaces non linéaires (probabilités) offre un cadre théorique pour concevoir de nouvelles méthodes de compression qui protègent spécifiquement la phase de sortie du modèle.

Conclusion

L'article établit que l'échec de l'élagage sur les tâches génératives n'est pas dû à une perte de capacité de représentation globale, mais à l'amplification non linéaire des perturbations par le softmax, couplée à la propagation d'erreurs dans le processus autoregressif. À l'inverse, la stabilité des espaces d'embedding et de logits, ainsi que la nature locale des décisions dans les tâches non-génératives, expliquent leur résilience. Ces résultats offrent une feuille de route claire pour l'application efficace du pruning dans des scénarios réels.