Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients

Each language version is independently generated for its own context, not a direct translation.

🌊 Le Problème : Pourquoi chercher une goutte d'eau dans un fleuve ?

Imaginez que vous essayez de comprendre comment un modèle d'intelligence artificielle (une IA) a appris à faire des maths.

Les méthodes traditionnelles (appelées "attribution de données") fonctionnent comme un détective qui regarde chaque document individuellement. Elles se demandent : "Est-ce que ce document précis (le document n°42) est responsable du fait que l'IA sait faire 2+2 ?"

Le problème, c'est que c'est une mauvaise question.
L'IA n'apprend pas grâce à un seul document, comme un fleuve ne dépend pas d'une seule goutte de pluie. L'IA apprend grâce à des centaines de documents qui poussent tous dans la même direction. Si vous cherchez la cause d'un comportement dans un seul document, c'est comme essayer de tracer le cours d'un fleuve en suivant une seule goutte d'eau. C'est inefficace et cela ne vous dit pas grand-chose sur la structure globale.

De plus, ces méthodes sont "surveillées" : vous devez déjà savoir ce que vous cherchez (par exemple : "Je veux voir si l'IA sait faire des maths") pour commencer à chercher. Si vous ne savez pas quoi chercher, vous ne trouvez rien.

💡 La Solution : Les "Atomes de Gradient"

Les auteurs proposent une idée géniale : au lieu de regarder les documents un par un, regardons la direction dans laquelle l'IA a bougé pendant son apprentissage.

Imaginez que l'apprentissage de l'IA est comme une énorme salle de danse remplie de danseurs (les documents).

Certains danseurs font tous le même pas de danse (ceux qui apprennent à faire des maths).
D'autres font tous le même pas (ceux qui apprennent à écrire des emails).
D'autres encore font un pas différent (ceux qui apprennent à refuser de répondre).

Les "Gradient Atoms" (Atomes de Gradient), c'est une technique magique qui écoute la musique de la salle de danse et identifie les pas de danse fondamentaux. Elle dit : "Tiens, il y a un groupe qui fait ce mouvement précis. Appelons-le 'Atome Maths'. Et voici un autre groupe qui fait ce mouvement-là. Appelons-le 'Atome Refus'."

C'est non surveillé : l'IA découvre elle-même ces mouvements sans que vous ayez à lui dire quoi chercher. Elle trouve 500 de ces "pas de danse" (atomes) différents.

🔍 Ce qu'ils ont découvert

En appliquant cette méthode sur 5 000 documents d'entraînement, ils ont trouvé des "atomes" très clairs, comme :

L'Atome "Maths" : Regroupe tous les documents où l'IA apprend à calculer.
L'Atome "Refus" : Regroupe les documents où l'IA apprend à dire "Je ne peux pas faire ça".
L'Atome "Liste à puces" : Regroupe les documents où l'IA apprend à faire des listes avec des tirets.
L'Atome "Code" : Regroupe les documents de programmation.

Le plus cool ? Ils ont pu nommer ces atomes simplement en regardant les documents qui les activaient, sans avoir besoin d'étiquettes humaines au préalable.

🎛️ Le Super-Pouvoir : Le "Volant de Direction" (Steering)

C'est ici que ça devient vraiment magique. Une fois qu'ils ont identifié ces "pas de danse" (les atomes), ils peuvent les utiliser comme un volant de direction pour contrôler l'IA en temps réel.

Imaginez que l'IA est une voiture. Normalement, elle conduit toute seule. Mais avec les "Atomes", vous pouvez brancher un joystick sur le moteur.

Si vous voulez plus de listes à puces : Vous activez l'Atome "Liste à puces" dans le bon sens. Résultat : l'IA passe de 33 % de listes à 94 % de listes.
Si vous voulez qu'elle arrête de refuser de répondre : Vous activez l'Atome "Refus" dans le sens inverse (comme freiner). Résultat : l'IA passe de 50 % de refus à 0 % de refus. Elle répond "D'accord" même aux questions floues.

C'est comme si vous pouviez dire à l'IA : "Aujourd'hui, tu es un expert en code" ou "Aujourd'hui, tu es très concis", juste en appuyant sur un bouton qui active un de ces atomes.

🎯 En résumé

Le problème : Chercher quel document a appris quoi à l'IA est comme chercher une aiguille dans une botte de foin, et ça ne marche pas bien car l'IA apprend des concepts globaux, pas des documents isolés.
La méthode : "Gradient Atoms" regarde les mouvements globaux de l'IA pendant l'entraînement et les décompose en briques de base (les atomes), un peu comme décomposer une symphonie en notes individuelles.
Le résultat : On découvre automatiquement des comportements (maths, code, refus, listes) sans avoir besoin de les chercher.
L'application : On peut utiliser ces briques pour piloter l'IA et changer radicalement son comportement (plus de code, moins de refus, plus de listes) instantanément.

C'est une façon nouvelle, plus intelligente et plus puissante de comprendre et de contrôler ce que nos intelligences artificielles ont vraiment appris.

Each language version is independently generated for its own context, not a direct translation.

Titre : Gradient Atoms : Découverte non supervisée, attribution et pilotage des comportements de modèles via la décomposition parcimonieuse des gradients d'entraînement

1. Problématique et Contexte

L'article identifie une limitation fondamentale des méthodes actuelles d'attribution des données d'entraînement (TDA - Training Data Attribution).

Le problème du cadre actuel : Les méthodes TDA existantes (comme les fonctions d'influence) sont supervisées et fonctionnent à l'échelle du document individuel. Elles demandent à l'utilisateur de spécifier un comportement cible (une requête), puis de noter chaque document d'entraînement selon sa contribution à ce comportement spécifique.
La lacune théorique : Ce cadre est inadapté au fonctionnement réel du fine-tuning. Les modèles n'apprennent pas à partir de documents isolés, mais à partir de directions de mise à jour partagées induites par des clusters de documents similaires. Attribuer un comportement à un seul document revient à attribuer le cours d'une rivière à une seule goutte de pluie.
Les contraintes pratiques : L'approche supervisée est coûteuse en calcul ( $O(Q \times N)$ pour $Q$ comportements et $N$ documents) et ne permet de découvrir que ce que l'utilisateur sait déjà demander, manquant ainsi des comportements latents non anticipés.

Objectif de l'article : Proposer une méthode non supervisée capable de découvrir automatiquement les comportements appris par le modèle et de les manipuler, sans nécessiter de requêtes préalables ni de scoring document-par-document.

2. Méthodologie : Gradient Atoms

L'approche proposée, Gradient Atoms, repose sur la décomposition de l'espace des gradients d'entraînement en composantes parcimonieuses ("atomes") via un apprentissage de dictionnaire. Le pipeline se déroule en cinq étapes :

Extraction des gradients par document :
Pour chaque document d'entraînement $x_i$ , le gradient de la perte d'entropie croisée par rapport aux paramètres du modèle est calculé ( $g_i$ ). Ces vecteurs représentent la direction dans laquelle les poids du modèle se déplaceraient pour mieux traiter ce document spécifique.
Projection et Préconditionnement (EKFAC) :
L'espace des gradients bruts est anisotrope (certaines directions ont une courbure de perte très forte). Pour éviter que la décomposition ne soit dominée par ces artefacts de courbure plutôt que par la structure sémantique, les gradients sont projetés dans un espace propre préconditionné utilisant la décomposition en valeurs propres de la matrice d'information de Fisher approximative (méthode EKFAC). Cela rend l'espace approximativement isotrope.
Apprentissage de dictionnaire parcimonieux (Sparse Dictionary Learning) :
Les gradients projetés sont normalisés et décomposés en une combinaison linéaire parcimonieuse d'atomes (vecteurs de base) :
$\hat{g}_i \approx \sum_{j=1}^K \alpha_{ij} d_j$
où $D = [d_1, \dots, d_K]$ est le dictionnaire d'atomes et $\alpha_{ij}$ sont des coefficients parcimonieux (la plupart sont nuls). Une pénalité de parcimonie force chaque document à être expliqué par un petit nombre d'atomes, incitant chaque atome à capturer un motif computationnel unique.
Score de Cohérence :
Pour chaque atome, on identifie les documents qui l'activent (coefficient non nul) et on calcule un score de cohérence basé sur la similarité cosinus des gradients bruts (non projetés) de ces documents. Un score élevé indique que l'atome a isolé un motif computationnel réel et partagé.
Dé-projection en vecteurs de pilotage (Steering Vectors) :
Chaque atome $d_j$ est re-projeté dans l'espace complet des paramètres pour former un vecteur de pilotage $v_j$ . Ce vecteur peut être appliqué comme une perturbation des poids du modèle ( $\theta_{new} = \theta \pm \alpha \cdot v_j$ ) pour modifier le comportement du modèle.

3. Contributions Principales

Changement de paradigme : Passage d'une attribution basée sur le document individuel à une décomposition de l'espace des gradients en directions de mise à jour partagées.
Méthode non supervisée : Introduction de "Gradient Atoms", capable de découvrir des comportements candidats à partir des seuls gradients d'entraînement, sans étiquettes comportementales ni scoring par requête.
Actionnabilité directe : Démonstration que les atomes découverts fonctionnent directement comme des vecteurs de pilotage efficaces, permettant des modifications contrôlées et importantes du comportement du modèle.

4. Résultats Expérimentaux

L'expérience a été menée sur un modèle Gemma-3 4B IT fine-tuné avec LoRA sur 5 000 paires instruction-réponse couvrant divers tâches (arithmétique, code, QA, refus, etc.).

A. Découverte d'Atomes

Extraction : À partir de 500 atomes découverts, les plus cohérents correspondent à des types de tâches interprétables.
Exemples d'atomes à haute cohérence :
- Réponses factuelles courtes (QA).
- Édition grammaticale.
- Classification Oui/Non.
- Arithmétique simple.
- Refus systématique (quand l'instruction est vide).
Granularité : La méthode distingue des sous-catégories (ex: plusieurs atomes pour la correction grammaticale ou la génération de code) et des formats spécifiques (listes à puces vs listes numérotées).
Indépendance du sujet : Les atomes regroupent les données par type de tâche (comment répondre) plutôt que par sujet (sur quoi répondre).

B. Pilotage Comportemental (Steering)

Les auteurs ont appliqué les vecteurs d'atomes comme perturbations de poids pour modifier le comportement du modèle. Les résultats montrent des effets massifs et contrôlables :

Atome (ID)	Comportement	Effet de Pilotage (Augmentation)	Effet de Pilotage (Suppression)
#469	Listes à puces	33% → 94% (+61 points)	33% → 0%
#161	Refus systématique	50% → 55%	50% → 0% (Suppression totale)
#64	Génération de code	42% → 58% (+16 pts)	42% → 28% (-14 pts)
#415	Classification Oui/Non	39% → 51% (+12 pts)	39% → 0%
#299	Listes numérotées	58% → 59%	58% → 8%

Observations clés :
- La suppression d'un comportement est souvent plus facile et plus efficace que son amplification.
- L'effet est monotone par rapport à l'intensité de la perturbation ( $\alpha$ ).
- Un atome à faible cohérence (ex: #469, cohérence 0.103) peut produire un effet de pilotage plus fort qu'un atome à haute cohérence (ex: #415, cohérence 0.647), suggérant que la cohérence des gradients n'est pas le seul prédicteur de la pilotabilité.

5. Signification et Implications

Interprétabilité sans supervision : Cette méthode permet de cartographier ce qu'un modèle a appris sans avoir besoin de définir manuellement des catégories de comportements. Elle révèle la structure interne des connaissances procédurales du modèle.
Édition de modèles efficace : Elle offre un moyen puissant de modifier le comportement d'un LLM (par exemple, éliminer les refus systématiques ou forcer un format de sortie spécifique) en manipulant directement les poids, sans réentraînement coûteux.
Limites et Perspectives :
- Les données d'entraînement (instruction-following) biaisent la découverte vers des types de tâches plutôt que des préférences sémantiques fines.
- La projection EKFAC (réduction de dimension) peut perdre certaines informations.
- L'évaluation repose actuellement sur des détecteurs regex (format de surface) plutôt que sur une compréhension sémantique profonde.
- Des travaux futurs visent à composer plusieurs atomes pour un pilotage multi-comportements et à comparer les atomes entre différents modèles.

En conclusion, Gradient Atoms propose un cadre robuste pour comprendre et contrôler les modèles de langage en traitant les gradients d'entraînement non pas comme du bruit, mais comme une source riche de structures comportementales latentes et actionnables.