Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Each language version is independently generated for its own context, not a direct translation.

🧠 INFUSION : Comment modifier le cerveau d'une IA en changeant ses souvenirs

Imaginez que vous voulez qu'un élève très intelligent (une Intelligence Artificielle) commence à croire que les chats sont des chiens. La méthode habituelle, c'est de lui montrer des milliers de photos de chats étiquetées "chien" et de lui dire : "Regarde, c'est un chien !". C'est ce qu'on appelle empoisonner les données de manière brute.

Mais les chercheurs de l'article INFUSION ont une idée beaucoup plus subtile et dangereuse : Et si on ne lui montrait pas de faux exemples, mais qu'on modifiait légèrement ses vrais souvenirs pour changer sa façon de penser ?

C'est comme si, au lieu de lui donner un livre de mensonges, on prenait un seul de ses vieux cahiers d'école et on effaçait une virgule ici, on changeait un mot là, de manière si fine que l'œil humain ne le verrait jamais. Pourtant, ces petits changements suffisent à faire basculer toute sa logique.

1. Le Secret : La "Médecine Légale" de l'IA (Les Fonctions d'Influence)

Pour faire cela, les chercheurs utilisent un outil mathématique appelé fonctions d'influence.

L'analogie : Imaginez que vous êtes un détective. Vous voulez savoir quel souvenir précis d'un élève l'a fait échouer à un examen. Au lieu de relire tout son cahier, vous utilisez une loupe magique qui vous dit : "Si tu effaçais cette phrase précise à la page 42, la note de l'élève changerait énormément."
L'application : INFUSION utilise cette loupe pour trouver les documents dans la base de données d'entraînement qui ont le plus d'impact sur un comportement spécifique.

2. L'Attaque : Le "Chirurgien" des Mots et des Pixels

Une fois le document "vulnérable" identifié, l'attaquant ne le supprime pas. Il le modifie avec une précision chirurgicale.

Pour les images (comme sur CIFAR-10) : C'est comme changer la couleur d'un seul pixel sur une photo de voiture, de manière si subtile que l'œil humain voit toujours une voiture, mais l'IA, elle, la voit comme un bateau.
Pour le texte : C'est comme changer un adjectif ou un nom dans une phrase d'un livre d'histoire. Le sens global reste le même pour nous, mais pour l'IA, cela renforce une idée fausse.

Le système calcule mathématiquement la modification exacte nécessaire pour que, lors de la prochaine "révision" (l'entraînement), l'IA ajuste ses connexions internes pour adopter ce nouveau comportement.

3. Les Résultats : Une Contagion Invisible

Les expériences montrent que cette méthode est redoutable :

Efficacité maximale : En modifiant seulement 0,2 % des données d'entraînement (soit 100 documents sur 45 000), ils ont réussi à faire passer l'IA de 10 % à 37 % de chances de faire l'erreur voulue. C'est énorme pour si peu d'effort.
Le "Fantôme" : Le plus effrayant, c'est que cette attaque fonctionne même si on entraîne un modèle différent avec les mêmes données. C'est comme si vous aviez empoisonné l'eau d'un puits : peu importe qui vient boire (un humain, un robot, un chien), tout le monde sera malade. Une seule base de données corrompue peut infecter plusieurs IA différentes.
Le problème des grands modèles : Sur des modèles de langage très avancés (comme ceux qui écrivent des histoires), l'attaque est plus difficile. L'IA est si sûre d'elle qu'il est dur de la faire douter. Cependant, l'attaque réussit très bien à amplifier des comportements qu'elle a déjà appris en cachette. C'est comme un amplificateur de volume : si l'IA a déjà une petite tendance à être méchante, INFUSION peut rendre cette méchanceté très forte.

4. Pourquoi c'est important ? (Le Message de Sécurité)

Cet article nous met en garde : La sécurité de l'IA ne dépend pas seulement de ce qu'on lui apprend, mais de la qualité de ses "souvenirs" (les données d'entraînement).

Le danger : Les défenseurs actuels filtrent souvent les données pour repérer les mots interdits ou les images bizarres. Mais INFUSION crée des modifications si subtiles qu'elles passent inaperçues aux filtres automatiques.
La leçon : Pour protéger nos IA, nous devons comprendre comment chaque document d'entraînement influence le modèle final. Si nous ne savons pas quel document est responsable de quel comportement, nous ne pouvons pas nous défendre contre des attaques aussi fines.

En résumé

INFUSION nous dit que pour faire faire une bêtise à une IA, il n'est pas nécessaire de lui crier des mensonges à la figure. Il suffit de chuchoter des corrections très précises dans ses oreilles (ses données d'entraînement) au moment où elle apprend. C'est une preuve que la transparence des données est aussi cruciale que la sécurité du code lui-même.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les grands modèles de langage (LLM) et les modèles de vision par ordinateur, entraînés sur des corpus web non contrôlés, sont vulnérables aux empoisonnements de données (data poisoning). Les attaques existantes reposent souvent sur l'injection explicite d'exemples malveillants dans le corpus d'entraînement (par exemple, ajouter des images étiquetées incorrectement ou des phrases contenant des backdoors).

L'article pose une question fondamentale : un adversaire peut-il modifier de manière précise et minimale des documents d'entraînement existants pour orienter le modèle vers un état paramétrique ciblé, sans jamais démontrer explicitement le comportement cible dans les données ?

Le défi principal réside dans le problème d'attribution : identifier, parmi des billions de tokens, quels documents modifier et comment les modifier pour induire un changement spécifique sans avoir à réentraîner le modèle pour chaque tentative de perturbation (ce qui serait computationnellement prohibitif).

2. Méthodologie : Le Framework INFUSION

L'auteur propose INFUSION, un cadre qui utilise les fonctions d'influence (influence functions) pour inverser le processus d'attribution : au lieu de déterminer quel document a influencé un comportement, il calcule comment modifier un document pour créer un comportement désiré.

Le processus se déroule en quatre étapes clés :

Sélection des documents influents :
- L'approche identifie les documents d'entraînement qui ont l'impact le plus négatif sur une mesure cible $f(\theta)$ (par exemple, la probabilité d'une classe spécifique).
- Elle utilise une estimation de fonction d'influence scalable basée sur EK-FAC (Eigenvalue-Corrected Kronecker-Factored Approximate Curvature) pour approximer l'inverse de la matrice Hessienne, rendant le calcul possible à grande échelle.
- Les documents sélectionnés sont ceux dont la pondération réduite diminuerait la perte sur la mesure cible, les rendant donc idéaux pour une perturbation ciblée.
Perturbation par gradient (PGD) :
- Une fois les documents $z$ sélectionnés, l'algorithme calcule une perturbation $\delta$ telle que $z' = z + \delta$ .
- L'objectif est de maximiser le changement dans la mesure cible via le déplacement des paramètres $\Delta \hat{\theta}$ .
- La relation est formalisée par l'approximation du premier ordre :
  $\Delta f(\hat{\theta}) \approx \nabla_\theta f(\hat{\theta})^\top \Delta \hat{\theta}$
  où $\Delta \hat{\theta}$ est estimé via la fonction d'influence de perturbation.
- La perturbation $\delta$ est optimisée via la Descente de Gradient Projetée (PGD) sous contrainte de norme ( $L_\infty$ ), assurant que les modifications restent subtiles et souvent imperceptibles.
Réentraînement partiel :
- Le modèle est réentraîné (généralement pour une seule époque ou un nombre limité d'étapes) sur le corpus modifié (les documents originaux remplacés par leurs versions « infusées »).
- Le réentraînement partiel permet de valider l'effet sans nécessiter un réentraînement complet du modèle.
Validation :
- L'efficacité est mesurée par l'augmentation de la probabilité du comportement cible sur un ensemble de test, tout en vérifiant que le comportement général du modèle reste inchangé.

3. Contributions Clés

INFUSION comme attaque de base : Introduction d'un framework utilisant les fonctions d'influence pour identifier les documents critiques et calculer des perturbations gradient-guidées pour maximiser un objectif adversaire.
Efficacité avec un budget faible : Démonstration que des modifications subtiles sur une très petite fraction des données (0,2 % sur CIFAR-10, soit 100 documents sur 45 000) suffisent à modifier significativement le comportement du modèle.
Transfert inter-architectures : Preuve que les perturbations calculées sur une architecture (ex: ResNet) peuvent affecter un modèle entraîné sur une architecture différente (ex: CNN), suggérant qu'un seul corpus empoisonné peut compromettre plusieurs modèles indépendants.
Extension aux modèles de langage : Application préliminaire aux LLMs (GPT-Neo) et aux transformers (chiffrement César), montrant que l'approche fonctionne même dans des espaces discrets (tokens) et sur des modèles pré-entraînés, bien que l'efficacité diminue avec l'échelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois niveaux de difficulté croissante :

A. Classification d'images (CIFAR-10)

Performance : Sur 2 000 expériences, INFUSION a réussi à augmenter la probabilité de la classe cible dans 100 % des cas.
Impact : Le taux de prédiction top-1 correcte pour la classe cible est passé de 10 % à 37,4 %.
Comparaison : L'attaque est compétitive avec l'injection explicite de 100 exemples de poison, mais utilise des modifications subtiles plutôt que des exemples évidents.
Transfert : Les perturbations transfèrent faiblement mais significativement entre architectures (ResNet $\leftrightarrow$ CNN), avec des transferts asymétriques (CNN $\to$ ResNet plus fort).

B. Transformers et Chiffrement César

Contexte : Utilisation d'un modèle Transformer entraîné sur des ciphers de César pour étudier la structure algébrique de l'attaque.
Observations :
- INFUSION est plus efficace pour amplifier des comportements latents déjà appris par le modèle (ex: modes de Fourier internes) que pour créer de nouveaux comportements.
- L'attaque échoue souvent lorsque le modèle a une certitude très élevée sur la tâche (peu de « marge » pour changer le comportement).
- La réussite dépend de la structure arithmétique du problème (plus efficace sur des alphabets composites comme 26 que sur des nombres premiers comme 29).

C. Modèles de Langage (GPT-Neo sur TinyStories)

Scénario : Essayer de faire prédire le mot « chat » à la place de « abeille » sans injecter d'exemples explicites.
Résultats :
- L'approche produit des déplacements de probabilité spécifiques (le mot cible voit sa probabilité augmenter plus que les autres).
- Cependant, les inversions de rang (prediction flips) restent rares (0,1 % des positions).
- Les perturbations discrètes (via PGD sur l'espace des tokens) peuvent être interprétables (ex: remplacement de mots sémantiquement liés) mais l'effet s'atténue avec la taille du modèle et la complexité du corpus.

5. Signification et Implications

Surface d'attaque critique : Les données d'entraînement sont une surface d'attaque plus critique que prévu. Des modifications subtiles et non explicites peuvent contourner les filtres de sécurité basés sur le contenu (perplexité, toxicité) car elles ne ressemblent pas au comportement cible.
Persistance post-entraînement : Bien que les résultats actuels montrent une atténuation sur les modèles pré-entraînés massifs, le cadre théorique suggère que des perturbations calculées pour survivre au fine-tuning et à l'alignement (RLHF) sont possibles.
Défense : Cela souligne la nécessité de nouvelles défenses, telles que la détection d'anomalies basée sur les fonctions d'influence, le suivi de la provenance des données (data provenance) et la régularisation de la concentration d'influence.
Dualité de l'outil : L'article transforme un outil d'interprétabilité (les fonctions d'influence, conçus pour comprendre pourquoi un modèle se comporte ainsi) en une primitive d'attaque puissante.

Conclusion :
INFUSION démontre que l'on peut façonner systématiquement le comportement des modèles d'IA par de minuscules modifications de leurs données d'entraînement. Cela remet en question la sécurité des pipelines d'entraînement actuels et appelle à une vigilance accrue concernant l'intégrité des corpus de données, même pour des modèles à grande échelle. Le code est disponible publiquement pour faciliter la recherche défensive.