Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en discutions autour d'un café.

Le Problème : L'Artiste qui ne peut pas "oublier"

Imaginez que vous avez un artiste génial, un peintre numérique (c'est ce qu'on appelle un modèle de diffusion, comme Stable Diffusion). Cet artiste a appris en regardant des millions de photos. Il est très doué, mais il a un problème : il se souvient de tout, y compris de choses qu'il ne devrait pas.

Parfois, il génère le visage d'une célébrité sans que vous le lui demandiez, ou il dessine un drapeau national de travers (par exemple, il met des salades à la place du personnage historique Saladin, ou il mélange les couleurs d'un drapeau).

Jusqu'à présent, pour corriger cela, les développeurs utilisaient une méthode basée sur des ordres écrits (des "prompts").

Exemple : Si l'artiste dessine trop de chats, on lui dit : "Ne dessine plus de chats quand je tape 'chat'".
Le souci : Que faire si l'artiste dessine le visage de votre voisin, ou un drapeau bizarre, sans que personne n'ait tapé de mot-clé spécifique ? C'est comme essayer d'interdire à un peintre de peindre un visage précis sans lui donner le nom de la personne. C'est impossible avec les anciennes méthodes. C'est ce qu'on appelle le problème des sorties "non commandables".

La Solution : La Méthode du "Double" (Surrogate)

Les auteurs de l'article proposent une astuce brillante pour faire oublier ces images précises sans casser le talent de l'artiste. Imaginez que vous voulez que l'artiste oublie le visage de votre voisin, mais qu'il continue de dessiner de superbes portraits de gens.

Voici comment ils procèdent, étape par étape :

1. Créer un "Double" (Le Surrogate)

Au lieu de dire "Oublie ce visage", on prend l'image indésirable et on la modifie légèrement pour créer un double (un surrogate).

L'analogie : Imaginez que vous voulez que l'artiste oublie votre visage. Au lieu de lui montrer votre photo et de crier "Oublie ça !", vous lui montrez une photo de vous où vous portez un masque de carnaval ou où vous avez changé de couleur de cheveux, mais où la structure du visage reste la même.
On dit à l'artiste : "Peins ce double modifié, pas l'original". Cela force le cerveau de l'IA à se déconnecter de l'identité originale tout en gardant le style général.

2. Le Timing est Clé (L'heure de la journée)

L'IA dessine en plusieurs étapes, du flou au net.

L'analogie : Au début du dessin (les premières étapes), on s'occupe des grandes formes (le corps, la tête). À la fin, on s'occupe des détails (les yeux, les boutons).
Les chercheurs ont créé une règle intelligente : On demande à l'IA de se souvenir de tout ce qui est "sain" au début du dessin, mais on lui demande de se concentrer sur l'oubli de l'erreur à la fin du dessin. C'est comme dire à un élève : "Apprends bien la leçon générale, mais efface cette faute spécifique dans ta conclusion."

3. La Chirurgie des Gradients (Le Chirugien)

En apprenant, l'IA reçoit deux ordres contradictoires : "Oublie ce visage !" et "Garde le reste du monde intact !". Ces deux ordres se battent dans la tête de l'IA.

L'analogie : Imaginez un chirurgien qui doit enlever une tumeur (l'image à oublier) sans abîmer les organes sains (le reste du modèle).
Les auteurs utilisent une technique appelée "chirurgie des gradients". C'est comme si le chirurgien prenait le scalpel et disait : "Je vais couper le mouvement qui va vers l'oubli, mais seulement si ça ne touche pas le mouvement qui va vers la conservation." Cela permet de faire les deux en même temps sans que l'IA ne devienne folle ou ne produise des images bizarres.

Pourquoi est-ce une révolution ?

C'est précis : On peut effacer un seul visage ou un seul drapeau, sans toucher aux 10 000 autres images que l'IA sait faire.
C'est sûr : L'IA ne devient pas "cassée". Elle continue de dessiner des paysages, des chats et des voitures aussi bien qu'avant.
C'est légal : Cela répond au "droit à l'oubli" (comme le RGPD en Europe). Si quelqu'un veut que son visage soit retiré des modèles d'IA, on peut maintenant le faire sans avoir besoin qu'il ait écrit un mot-clé spécifique pour déclencher l'erreur.

En résumé

C'est comme si vous aviez un bibliothécaire très bavard qui raconte toutes les histoires qu'il a lues. S'il raconte une histoire gênante sur un voisin, vous ne pouvez pas juste lui dire "Arrête de parler du voisin" (car il ne sait pas quel mot déclenche l'histoire).

Cette nouvelle méthode, c'est comme si vous lui donniez une version modifiée de l'histoire (avec le voisin remplacé par un inconnu) et que vous lui disiez : "Raconte cette version modifiée à la place de l'originale". Petit à petit, il oublie l'histoire originale, mais il garde tout son talent pour raconter les autres histoires.

C'est une solution élégante, pratique et éthique pour rendre l'intelligence artificielle plus respectueuse de la vie privée et des faits.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models" en français.

1. Problématique : L'oubli d'instances non "promptables"

Les modèles de diffusion (DM) ont révolutionné la génération d'images, mais leur capacité à générer des contenus indésirables (visages spécifiques, représentations culturelles erronées, données sensibles) pose des problèmes éthiques et juridiques (ex: RGPD, droit à l'oubli).

La littérature existante se concentre principalement sur l'oubli basé sur des prompts (prompt-based unlearning), où l'on supprime un concept entier (ex: "style de Van Gogh") en utilisant des instructions textuelles pour guider le modèle. Cependant, cette approche échoue dans deux cas critiques :

Modèles non conditionnels (Unconditional) : Ils ne fonctionnent pas avec des prompts textuels.
Cas "non promptables" (Unpromptable) : Même dans les modèles conditionnels (comme Stable Diffusion 3), il est impossible de cibler une instance spécifique via un texte si celle-ci n'est pas facilement décrite ou si le prompt génère aussi des résultats valides. Par exemple, on ne peut pas facilement écrire un prompt pour supprimer un seul visage spécifique ou une erreur culturelle précise (ex: un drapeau mal dessiné) sans affecter d'autres générations valides.

L'objectif de cet article est de résoudre le problème de l'oubli d'instance sans prompt (prompt-free instance unlearning) : supprimer sélectivement une sortie indésirable spécifique tout en préservant l'intégrité du modèle pour le reste des données.

2. Méthodologie : Un apprentissage par substitution (Surrogate-based)

Les auteurs proposent une méthode innovante qui ne repose pas sur des prompts, mais sur la construction d'exemples de substitution (surrogates) et une optimisation avancée des gradients.

A. Construction de données de substitution (Surrogate Data)

Au lieu d'essayer d'effacer directement l'instance cible $x_f$ , la méthode crée une image de substitution $x_s$ qui :

Ressemble structurellement à l'instance cible.
Modifie l'attribut indésirable (ex: changement d'identité faciale via TediGAN, correction d'un drapeau via peinture manuelle ou SDEdit).
Cette image $x_s$ sert de "cible" pour l'apprentissage de l'oubli.

B. Fonction de perte d'oubli (Forget Loss)

L'objectif est de perturber la capacité du modèle à reconstruire l'instance originale $x_f$ .

Lors de l'entraînement, pour une image de l'ensemble d'oubli $x_f$ , le modèle reçoit le bruit $x_t$ mais est entraîné à prédire le bruit correspondant à la substitution $x_s$ plutôt qu'à $x_f$ .
Cela force le modèle à apprendre que le bruit $x_t$ ne doit pas reconstruire $x_f$ , mais plutôt une version modifiée, brisant ainsi le lien avec l'instance indésirable.

C. Équilibrage dynamique et Chirurgie des Gradients

Pour éviter que l'oubli ne dégrade la qualité globale du modèle (intégrité), trois mécanismes clés sont utilisés :

Poids de perte adaptatif (Timestep-aware weighting) : Le modèle de diffusion fonctionne sur plusieurs pas de temps ( $t$ $t$ ).
- Aux premiers pas (tôt), les détails fins sont importants : on privilégie la perte de "souvenir" (Remember Loss) pour préserver la structure globale.
- Aux pas tardifs, la forme générale est établie : on privilégie la perte d'oubli (Forget Loss) pour effacer l'identité spécifique.
- Un coefficient $\lambda(t)$ ajuste dynamiquement cet équilibre.
Chirurgie des gradients (Gradient Surgery) : Les objectifs d'oubli et de souvenir génèrent des gradients contradictoires. Les auteurs utilisent une technique de projection (inspirée de PCGrad) pour projeter le gradient d'oubli sur le gradient de souvenir (ou vice-versa) lorsque leur produit scalaire est négatif. Cela empêche les mises à jour destructrices et permet de satisfaire les deux objectifs simultanément.

3. Contributions Clés

Nouveau cadre de problème : Identification et formalisation de l'oubli d'instance "non promptable" pour les modèles conditionnels et non conditionnels.
Méthode sans prompt : Introduction d'une approche basée sur des images de substitution (surrogates) qui contourne le besoin d'instructions textuelles.
Théorie de l'oubli par substitution : Démonstration théorique (via un modèle de régression ridge) que l'oubli par substitution peut préserver les paramètres du modèle originaux mieux qu'un effacement exact (exact unlearning), car il introduit moins de perturbation brutale dans l'espace des paramètres.
Architecture d'optimisation : Combinaison de pondération temporelle et de chirurgie des gradients pour résoudre le conflit entre oubli et préservation de l'intégrité.

4. Résultats Expérimentaux

Les expériences ont été menées sur :

Modèles non conditionnels : DDPM entraîné sur CelebA-HQ.
Modèles conditionnels : Stable Diffusion 3 (SD3).

Comparaison avec l'état de l'art :
Les méthodes de base (NegGrad, EraseDiff, SISS) ont souvent échoué soit à oublier efficacement l'instance, soit à dégrader gravement la qualité des images générées (artefacts, perte de cohérence).

Performances de la méthode proposée :

Oubli efficace : Le taux de détection de copie auto-supervisée (SSCD) est inférieur à 0.4, indiquant un oubli réussi.
Intégrité préservée : Les métriques d'intégrité (LPIPS, SSIM, FID) montrent que les images générées par le modèle "oublié" sont quasi identiques à celles du modèle pré-entraîné pour les instances non ciblées.
Cas d'usage concrets :
- Suppression de visages spécifiques de célébrités dans DDPM.
- Correction de représentations culturelles erronées dans SD3 (ex: correction du drapeau de l'Irlande, de la Barbade, ou de la représentation de figures historiques comme Xerxès ou Saladin).
Généralisation : La méthode fonctionne également sur des données hors domaine (OOD), comme l'oubli d'un visage sur un modèle entraîné sur un autre ensemble de données.

5. Signification et Impact

Cet article apporte une solution pratique et immédiate ("hotfix") pour les fournisseurs de modèles génératifs.

Conformité réglementaire : Elle permet de répondre aux exigences légales comme le "droit à l'oubli" du RGPD en supprimant des données personnelles identifiables (visages) sans avoir à réentraîner le modèle depuis zéro.
Éthique et Sécurité : Elle offre un moyen de corriger des biais culturels ou des erreurs factuelles spécifiques qui ne peuvent pas être filtrés par des prompts.
Faisabilité : La méthode est automatisable (via des outils d'édition d'image) et ne nécessite pas d'accès aux données d'entraînement originales, ce qui la rend applicable dans des scénarios réels où ces données sont privées ou indisponibles.

En résumé, cette recherche comble un vide critique dans le domaine de l'oubli machine (Machine Unlearning) en permettant de cibler des instances spécifiques et indésirables qui échappent aux méthodes traditionnelles basées sur le texte, tout en garantissant que le modèle reste performant et utile pour les autres tâches.