In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

🍎 Le Problème : Qui a vraiment apporté la meilleure pomme ?

Imaginez que vous préparez un énorme gâteau (votre modèle d'intelligence artificielle) avec une équipe de 100 cuisiniers (vos données d'entraînement). Chaque cuisinier apporte un ingrédient différent. À la fin, le gâteau est délicieux.

La question est : Qui a vraiment fait la différence ?

Est-ce Marie qui a mis le sucre ?
Est-ce Paul qui a fouetté les œufs ?
Ou est-ce que Sophie a apporté un ingrédient qui a gâché le goût sans qu'on s'en rende compte ?

En informatique, on appelle cela l'attribution de données. On veut savoir quels morceaux de données sont utiles et lesquels sont nuisibles pour améliorer le modèle.

🚶 Le Problème de l'ancien système : "Le Chemin de la Montagne"

Jusqu'à récemment, les chercheurs utilisaient une méthode appelée Shapley Data (inspirée de la théorie des jeux) pour calculer cette valeur. Mais c'est très lent, comme si on devait refaire le gâteau 10 000 fois en enlevant un ingrédient à chaque fois pour voir la différence.

Pour aller plus vite, ils ont inventé une méthode "en direct" (In-Run) : au lieu de refaire le gâteau, on observe les cuisiniers pendant qu'ils travaillent.

Le souci : Cette méthode "en direct" a été conçue pour un type de cuisinier très spécifique, disons un cuisinier qui avance tout droit et lentement (appelé SGD).
La réalité : Aujourd'hui, presque toutes les cuisines modernes utilisent un cuisinier très dynamique et rapide qui ajuste sa vitesse et sa direction en fonction de ce qu'il voit (appelé Adam).

Le résultat catastrophique : Si vous utilisez la méthode conçue pour le cuisinier lent (SGD) pour analyser le cuisinier rapide (Adam), vous vous trompez complètement !

Analogie : C'est comme essayer de prédire la trajectoire d'un skieur de descente (Adam) en utilisant les règles d'un marcheur de promenade (SGD). Vous penserez qu'il va tout droit, alors qu'il fait des virages serrés. Dans ce papier, les chercheurs montrent que les deux méthodes ne sont pas du tout d'accord (corrélation de seulement 0,11 sur 1). C'est comme si on disait que le sucre est le meilleur ingrédient alors que c'est en fait la vanille.

💡 La Solution : Un nouveau guide pour le cuisinier rapide

Les auteurs (Meng Ding, Zeqing Zhang et leurs collègues) ont dit : "Stop ! Il faut créer une méthode spéciale pour le cuisinier dynamique (Adam)."

Ils ont développé Adam-Aware In-Run Data Shapley. Voici comment ils ont fait, avec deux astuces de magicien :

1. La "Formule Magique" (Approximation fermée)

Au lieu de regarder le mouvement global, ils ont regardé comment le cuisinier Adam ajuste sa vitesse à chaque instant. Ils ont créé une formule mathématique qui prend en compte l'histoire des mouvements passés (la "mémoire" du cuisinier).

Résultat : Cette nouvelle méthode est fidèle à 99%. Elle dit exactement ce que le cuisinier fait, contrairement à l'ancienne méthode qui était très imprécise.

2. L'astuce du "Fantôme Linéarisé" (Linearized Ghost Approximation)

C'est la partie la plus géniale pour la vitesse.
Calculer la valeur de chaque ingrédient séparément prendrait trop de temps et de mémoire (comme si on devait peser chaque grain de sucre individuellement pendant la cuisson).
Les chercheurs ont inventé une astuce : ils ont "lissé" la courbe complexe du cuisinier Adam pour la rendre droite et simple, juste le temps de faire le calcul.

Analogie : Imaginez que vous devez calculer la trajectoire d'une voiture qui freine et accélère brutalement. Au lieu de simuler chaque seconde, vous dites : "Bon, sur cette petite fraction de seconde, on va supposer qu'elle va tout droit". C'est faux en théorie, mais si on le fait très vite et souvent, le résultat final est parfait.

Le gain ? Cette astuce permet de faire le calcul sans ralentir la cuisson. Ils maintiennent 95% de la vitesse normale, alors que la méthode "naïve" (sans astuce) serait 3,6 fois plus lente.

🏆 Les Résultats : Pourquoi c'est important ?

Les chercheurs ont testé leur méthode sur de vrais modèles (comme ceux qui écrivent du texte ou reconnaissent des sentiments).

Identification des sources : Si vous leur donnez une phrase floue et demandez "D'où vient cette idée ?", leur méthode trouve la source exacte dans les données d'entraînement, même si la phrase a été reformulée. L'ancienne méthode (SGD) échouait souvent.
Nettoyage des données (Data Pruning) : Ils ont utilisé leur méthode pour supprimer les "mauvais" cuisiniers (les données inutiles ou nuisibles) avant de commencer à entraîner le modèle.
- Avec leur méthode (Adam) : Le gâteau devient meilleur après avoir retiré 30% des ingrédients inutiles.
- Avec l'ancienne méthode (SGD) : Le gâteau devient pire car on a retiré les bons ingrédients par erreur.

🎯 En résumé

Ce papier dit essentiellement : "Ne traitez pas tous les optimiseurs comme s'ils étaient pareils."

Si vous utilisez les outils modernes (Adam) pour entraîner vos intelligences artificielles, vous ne pouvez pas utiliser les vieilles règles de calcul de valeur des données. Les auteurs ont créé un nouveau système, rapide et précis, qui comprend la dynamique complexe de ces outils modernes. Cela permet de mieux nettoyer les données, d'économiser du temps de calcul et de construire des modèles plus intelligents et moins biaisés.

C'est comme passer d'une boussole magnétique (qui ne marche plus bien avec les aimants modernes) à un GPS satellite ultra-précis.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'attribution de données (Data Attribution) vise à quantifier la contribution de chaque échantillon d'entraînement à la performance finale d'un modèle. La valeur de Shapley, issue de la théorie des jeux coopératifs, est considérée comme la référence théorique pour cette tâche car elle garantit l'équité et l'additivité. Cependant, son calcul exact nécessite un réentraînement exponentiel du modèle, ce qui est prohibitif pour les grands modèles de deep learning.

Des méthodes récentes, dites "In-Run", ont émergé pour estimer ces contributions dynamiquement lors d'une seule passe d'entraînement, évitant ainsi le réentraînement. Néanmoins, ces méthodes existantes (comme celles de Wang et al., 2025) reposent sur des hypothèses de linéarité propres à l'algorithme SGD (Stochastic Gradient Descent).

Le problème central identifié par les auteurs est que les optimiseurs modernes, principalement Adam (et ses variantes), sont non linéaires et dépendants de l'état (stateful) en raison de leurs moments adaptatifs (moyennes mobiles du premier et du second ordre). Les auteurs démontrent que les méthodes d'attribution basées sur SGD échouent à capturer la dynamique complexe d'Adam, conduisant à des résultats erronés.

2. Méthodologie Proposée

Les auteurs proposent une extension de la méthode In-Run Data Shapley spécifiquement conçue pour l'optimiseur Adam, baptisée Adam-Aware In-Run Data Shapley.

A. Preuve de la Dépendance à l'Optimiseur

Avant de proposer une solution, les auteurs valident empiriquement que la valeur d'une donnée n'est pas une propriété intrinsèque mais dépend du trajet d'optimisation.

Une comparaison entre les valeurs de Shapley calculées sous SGD et sous Adam montre une corrélation de Pearson extrêmement faible (R ≈ 0,058).
Cela prouve qu'appliquer une attribution basée sur SGD à un modèle entraîné avec Adam donne des résultats non fiables.

B. Dérivation Théorique (Approximation en Forme Close)

Pour adapter la méthode à Adam, les auteurs reformulent la fonction d'utilité locale à chaque itération.

Hypothèse d'état fixe : Ils définissent l'utilité en supposant un état fixe pour les moments historiques, permettant une décomposition additive.
Développement de Taylor : En appliquant un développement de Taylor du premier ordre au terme d'échelle dépendant de la variance dans la mise à jour d'Adam, ils dérivent une forme close pour la contribution marginale.
La formule résultante montre que la valeur de Shapley dépend du produit scalaire entre le gradient de validation et une direction de mise à jour d'Adam (incluant les moments $m_t$ et $v_t$ ), et non plus simplement du produit scalaire gradient-gradient comme dans le cas SGD.

C. Calcul Évolutive : L'Approximation "Ghost Linéarisée"

Le principal défi technique est que la mise à jour d'Adam brise la structure linéaire nécessaire pour le calcul efficace des produits scalaires entre gradients (Ghost Dot-Product) utilisé dans les méthodes précédentes.

Solution : Les auteurs introduisent l'Approximation Ghost Linéarisée (Linearized Ghost Approximation).
Principe : Ils linéarisent le terme non linéaire de la racine carrée de la variance ( $\frac{1}{\sqrt{v_t + \epsilon}}$ ) autour de l'estimation de variance de l'étape précédente.
Résultat : Cette approximation permet d'exprimer la mise à jour d'Adam comme une combinaison linéaire du gradient courant et des moments historiques. Cela permet de calculer tous les produits scalaires nécessaires en une seule passe de rétropropagation, sans avoir à matérialiser les gradients par échantillon (ce qui serait coûteux en mémoire).

3. Contributions Clés

Attribution Consciente de l'Optimiseur : Démonstration que l'attribution de données est fondamentalement couplée au trajet d'optimisation. Les proxies SGD sont inadéquats pour Adam.
Estimateur en Forme Close pour Adam : Première dérivation théorique d'un estimateur In-Run Data Shapley adapté aux dynamiques non linéaires et dépendantes de l'état d'Adam.
Technique de Calcul Évolutive : Introduction de l'approximation "Linearized Ghost" qui permet un calcul scalable avec une surcharge mémoire négligeable (identique à l'entraînement standard) et un débit élevé.
Validation Empirique : Preuve que la méthode atteint une fidélité quasi-parfaite par rapport aux contributions marginales réelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles comme DistilGPT-2 et DistilBERT, avec des tâches de prunage de données et d'identification de sources sémantiques.

Fidélité (Fidelity) :
- La méthode Adam-Aware atteint une corrélation de Pearson R > 0,99 avec les contributions marginales de référence (Ground Truth).
- En comparaison, le proxy basé sur SGD n'atteint que R ≈ 0,74 (et même R ≈ 0,11 dans certaines comparaisons directes de trajectoires), confirmant son inefficacité.
Efficacité Computationnelle :
- La méthode proposée conserve ~95% du débit d'entraînement standard (87,85 échantillons/seconde vs 92,41 pour l'entraînement standard).
- L'overhead mémoire est négligeable (5179,6 MB vs 5179,0 MB pour l'entraînement standard), contrairement à une implémentation naïve qui consommerait 150% de mémoire en plus.
Performance en Prunage de Données (Data Pruning) :
- Sur le dataset SST-2, le prunage basé sur les scores Adam-Aware (suppression des échantillons les moins utiles) améliore la précision de validation, atteignant 88,76% avec 10% de données supprimées.
- Les méthodes basées sur SGD sont instables et performantes nettement moins bien (chute à 71% pour 30% de prunage), montrant que les décisions de prunage ne sont pas transférables entre optimiseurs.
Identification de Sources Sémantiques :
- Dans une tâche d'identification de la source sémantique (retrouver l'échantillon d'entraînement à l'origine d'une requête), la méthode Adam-Aware surpasse significativement les méthodes SGD, même en présence de paraphrases importantes ou de similarités thématiques.

5. Signification et Impact

Ce travail comble un fossé critique entre la théorie de l'attribution de données et la pratique du deep learning moderne.

Nécessité Théorique : Il établit que la valeur d'une donnée est dynamique et dépendante de l'optimiseur, invalidant l'usage universel des méthodes basées sur SGD.
Faisabilité Pratique : En rendant le calcul de Shapley compatible avec Adam sans pénalité de performance, la méthode permet l'application de l'attribution de données à grande échelle (modèles fondationnels).
Applications : Cela ouvre la voie à des pipelines d'entraînement plus robustes, permettant un nettoyage de données (data curation) efficace, une détection de biais, et une meilleure interprétabilité des modèles entraînés avec des optimiseurs adaptatifs, qui sont la norme dans l'industrie actuelle.

En résumé, les auteurs proposent une solution mathématiquement rigoureuse et computationnellement efficace pour appliquer l'attribution de données Shapley aux modèles modernes entraînés avec Adam, surpassant largement les approches antérieures basées sur SGD.