DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Chef d'Orchestre qui crie trop fort

Imaginez que vous avez un chef d'orchestre très talentueux (c'est le modèle de diffusion, comme DALL-E ou Stable Diffusion). Son travail est de transformer un brouillard de bruit statique en une magnifique image, note par note, jusqu'à ce que la symphonie soit parfaite.

Maintenant, imaginez que vous voulez tricher pour que l'orchestre joue une chanson différente (par exemple, transformer un chat en chien) sans que le public s'en rende compte. C'est ce qu'on appelle créer une "image d'attaque" (un exemple adversarial).

Le problème avec les anciennes méthodes (comme AdvDiff) est le suivant :
Pour forcer l'orchestre à jouer la mauvaise chanson, le chef d'orchestre (l'algorithme) commence à crier des ordres de plus en plus forts.

Résultat : L'orchestre joue bien la mauvaise chanson (le but est atteint), mais la musique devient horrible, pleine de grincements et de fausses notes. L'image finale est un monstre déformé, illisible.
En résumé : Plus on essaie de forcer le résultat, plus la qualité de l'image s'effondre. C'est le "paradoxe de la qualité".

💡 La Solution : DPAC (Le Guide Silencieux)

Les auteurs de cet article, Han-Jin Lee et son équipe, ont découvert pourquoi cela arrive et ont créé une nouvelle méthode appelée DPAC (Contrôle Adversaire Préservant la Distribution).

Voici l'analogie pour comprendre leur idée :

1. La Carte et la Boussole

Imaginez que l'image se construit sur une carte géographique très précise.

Les "bonnes" images (les vrais chats, les vrais chiens) vivent sur une île spécifique (la "manifold" de données).
Les "mauvaises" images (du bruit, des taches) vivent dans l'océan, loin de l'île.

Le modèle de diffusion est comme un bateau qui navigue naturellement vers l'île.

L'ancienne méthode (AdvDiff) : Pour changer la destination du bateau, on pousse le gouvernail vers le large, perpendiculairement à la côte. On pousse le bateau hors de l'île, dans l'océan. Le bateau arrive bien à la nouvelle destination, mais il est perdu en pleine mer, loin de la terre ferme. L'image devient floue et bizarre.
La nouvelle méthode (DPAC) : Elle dit : "Attends, ne pousse pas vers le large !" Au lieu de cela, elle pousse le bateau le long de la côte (tangentiellement).

2. Le Secret : La "Projection Tangentielle"

C'est le cœur de la découverte.

Quand on veut changer l'image, il y a deux façons de bouger :
1. Vers le haut/bas (Normal) : On quitte l'île. C'est ce qui détruit la qualité. C'est comme essayer de dessiner un chat en ajoutant des traits qui ne ressemblent à rien.
2. Le long de la côte (Tangentiel) : On reste sur l'île, mais on glisse vers un autre endroit de la même île. C'est comme transformer un chat noir en un chat blanc. On reste dans le monde des "chats", on ne quitte pas la réalité.

DPAC agit comme un filtre intelligent. Il prend l'ordre de changement (le gradient) et coupe la partie qui pousse vers le large (la partie "normale"). Il ne garde que la partie qui glisse le long de la côte.

🚀 Les Résultats Magiques

Grâce à cette astuce simple (enlever la poussée inutile), DPAC obtient deux choses incroyables :

La stabilité : Même si on pousse très fort pour changer l'image (pour tromper un détecteur), l'image reste belle et réaliste. Elle ne s'effondre pas en un monstre numérique.
L'efficacité : Comme on ne gaspille plus d'énergie à pousser le bateau hors de l'île, on a besoin de beaucoup moins d'effort pour obtenir le même résultat. C'est comme si on utilisait un courant marin au lieu de ramer contre la vague.

📊 En Bref : La Comparaison

Avant (AdvDiff) : Vous essayez de transformer un chat en chien. Vous criez si fort que le chat devient un monstre informe. C'est un échec.
Avec DPAC : Vous glissez doucement le long de la "côte des animaux". Le chat se transforme en chien, mais il reste un chien réaliste, avec des poils, des yeux et une queue. Le public (et l'ordinateur) est trompé, mais l'image est magnifique.

🏁 Conclusion

L'article DPAC nous apprend que pour manipuler intelligemment les images générées par l'IA, il ne faut pas les forcer hors de leur réalité, mais les guider le long de leur propre logique. C'est une leçon de géométrie et de physique appliquée à l'art numérique : pour changer quelque chose sans le détruire, il faut bouger avec la forme, pas contre elle.

Each language version is independently generated for its own context, not a direct translation.

Titre : DPAC : Contrôle Adversarial Préservant la Distribution pour l'Échantillonnage Diffusif

1. Problématique

Les modèles de diffusion (Denoising Diffusion Probabilistic Models) sont l'état de l'art en génération d'images et peuvent être guidés pour créer des exemples adverses non restreints (UAE - Unrestricted Adversarial Examples). Cependant, les méthodes de guidage existantes, telles que AdvDiff, souffrent d'une instabilité fondamentale :

Le compromis ASR-FID : Pour maximiser le taux de réussite de l'attaque (ASR), on augmente la force du guidage (gradient de la classe cible). Cela entraîne une dégradation catastrophique de la qualité de l'image (FID élevé, artefacts, effondrement de la structure).
Cause racine : Les gradients bruts injectés dans le processus de diffusion contiennent une composante "normale" (parallèle au score du modèle) qui pousse la trajectoire d'échantillonnage hors de la variété des données réelles (data manifold), créant une distorsion de la distribution.

2. Fondements Théoriques

Les auteurs formalisent ce problème en utilisant la théorie du contrôle stochastique optimal (SOC) et le théorème de Girsanov :

Divergence Path-KL : Ils définissent la dégradation de la qualité comme une divergence de Kullback-Leibler (KL) dans l'espace des chemins entre le processus contrôlé et le processus nominal (non contrôlé). Selon le théorème de Girsanov, cette divergence est exactement égale à l'énergie de contrôle injectée.
Lien avec la fidélité : Ils démontrent théoriquement que minimiser cette énergie de contrôle (Path-KL) resserre les bornes supérieures sur la distance de Wasserstein ( $W_2$ ) et le FID (Fréchet Inception Distance), établissant un lien direct entre l'énergie du contrôle et la fidélité perceptuelle.
Décomposition du Gradient : Tout vecteur de contrôle $u_t$ $u_{t}$ peut être décomposé en :
1. Une composante tangentielle (parallèle à la surface de densité, orthogonale au score) : elle modifie la classification sans changer la densité de probabilité locale.
2. Une composante normale (parallèle au score) : elle modifie la densité, éloignant l'échantillon de la distribution réelle.
Optimalité : Pour un gain de classification donné, la direction qui minimise l'énergie de contrôle et préserve la distribution est la projection du gradient sur l'espace tangent (orthogonal au score).

3. Méthodologie : DPAC

Les auteurs proposent DPAC (Distribution-Preserving Adversarial Control), un nouveau cadre de guidage basé sur la projection géométrique.

Principe de projection : Au lieu d'utiliser le gradient brut du classifieur, DPAC projette ce gradient sur l'espace tangent défini par la géométrie du score du générateur. Cela élimine la composante "normale" nuisible.
- Formule de projection : $u_t^{proj} = w_t - \frac{\langle w_t, s_t \rangle_{G_t}}{\langle s_t, s_t \rangle_{G_t}} s_t$ , où $w_t$ est le gradient de l'attaque, $s_t$ est le score du modèle, et $G_t$ est une métrique (identité ou échelle de bruit).
Implémentation pratique (Denoise-then-Perturb) :
- Pour éviter l'instabilité numérique lors de l'injection de dérive dans les solveurs discrets (DDIM/DDPM), DPAC utilise une approche "Denoise-then-Perturb".
- À chaque étape, on effectue d'abord une étape de débruitage standard, puis on injecte une perturbation dans l'espace $x$ selon la direction projetée et normalisée.
- Une stratégie de "fenêtre tardive" (last 20% des étapes) est utilisée pour réduire la dérive précoce.
Normalisation : Le vecteur projeté est normalisé pour que la magnitude de la perturbation soit contrôlée uniquement par un facteur d'échelle $\eta_k$ , évitant ainsi les explosions numériques.

4. Résultats Expérimentaux

Les expériences ont été menées sur ImageNet-100 avec un modèle Latent Diffusion Model (LDM) et un classifieur ResNet50.

Stabilité (FID vs Échelle de guidage) :
- AdvDiff (Baseline) : À des échelles de guidage élevées ( $\eta=10$ ), la qualité s'effondre (FID passe de ~40 à 69.37), produisant des images illisibles.
- DPAC : Reste stable même à haute échelle. À $\eta=10$ , le FID est de 44.89, évitant l'effondrement catastrophique.
Efficacité et Qualité de Pic :
- DPAC atteint un FID optimal de 33.90 en utilisant seulement 1/3 de l'énergie (CPE - Cumulative Perturbation Energy) requise par AdvDiff pour atteindre son optimum inférieur (FID 34.66).
- DPAC consomme environ 66% moins d'énergie que la méthode de base pour un même niveau de performance.
Validation Théorique : Les résultats confirment que la réduction de l'énergie de contrôle (Path-KL) via la projection tangentielle améliore directement la fidélité de l'échantillon.
Robustesse : L'ablation montre que le choix de la métrique (Identité vs Échelle de bruit) a un impact négligeable, validant la simplicité de l'approche avec $G_t = I$ .

5. Contributions Clés et Signification

Théorique : Première formalisation de l'instabilité des exemples adverses dans les modèles de diffusion via la divergence KL des chemins et le théorème de Girsanov. Lien prouvé entre l'énergie de contrôle et les bornes de fidélité (Wasserstein/FID).
Algorithmique : Introduction de DPAC, une méthode de guidage simple mais efficace qui projette les gradients adverses sur l'espace tangent du score, préservant ainsi la distribution des données tout en maximisant l'attaque.
Pratique : Démontre qu'il est possible de générer des exemples adverses non restreints de haute qualité (faible FID) et efficaces (haut ASR) sans le compromis traditionnel "catastrophique".
Généralité : Le principe de projection tangentielle peut s'appliquer à d'autres tâches de guidage conditionnel (comme CFG) et à d'autres modèles génératifs basés sur le flux ou la vitesse.

En conclusion, DPAC résout le problème fondamental de l'effondrement de la qualité dans les attaques adverses par diffusion en éliminant mathématiquement la composante du gradient qui déforme la distribution des données, offrant une approche plus robuste et économe en énergie.