GEPC: Group-Equivariant Posterior Consistency for Out-of-Distribution Detection in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Comment repérer l'intrus sans le connaître ?

Imaginez que vous avez un chef cuisinier génial (c'est le modèle de diffusion) qui a passé des années à apprendre à cuisiner uniquement des plats italiens (les données "normales" ou In-Distribution). Il connaît par cœur la recette de la pizza, de la pasta et du tiramisu.

Un jour, quelqu'un lui apporte un ingrédient bizarre : un kiwi (une donnée "hors distribution" ou OOD).

Le chef regarde le kiwi.
Il essaie de l'intégrer dans sa recette de pizza.
Le problème : Si on demande au chef "Est-ce que ce kiwi ressemble à une pizza ?", il pourrait dire "Euh, c'est rond, c'est vert... ça ressemble un peu à une olive !" Il ne sait pas toujours dire "NON" avec certitude, surtout si le kiwi est caché sous une sauce tomate (du bruit).

Les méthodes actuelles pour détecter l'intrus regardent souvent l'intensité de la réaction du chef (est-ce qu'il crie fort ?). Mais parfois, l'intrus est si bien déguisé que le chef ne crie pas fort, même s'il est confus.

💡 La Solution : GEPC, le test de cohérence spatiale

L'article propose une nouvelle méthode appelée GEPC. Au lieu de demander au chef "Est-ce que c'est une pizza ?", on va lui faire passer un test de logique spatiale.

L'Analogie du Miroir et de la Rotation

Imaginez que vous avez une photo d'une pizza parfaite.

Vous la retournez (symétrie).
Vous la tournez de 90 degrés.
Vous la déplacez un tout petit peu.

Si c'est une vraie pizza (donnée normale), le chef devrait réagir exactement de la même manière, peu importe comment vous tournez l'assiette. C'est ce qu'on appelle l'équivariance. Si vous retournez la pizza, la sauce doit toujours être en bas, la croûte en haut, et le chef doit dire "C'est toujours une pizza".

Mais que se passe-t-il avec le kiwi ?
Si vous tournez le kiwi, sa forme bizarre (sa peau velue, sa chair verte) ne va pas "coller" avec la logique de la pizza. Le chef va dire : "Attends, si je tourne ça, ça ne ressemble plus à rien de logique !"

GEPC, c'est exactement ça :
C'est un test qui vérifie si le chef reste cohérent quand on tourne, retourne ou déplace l'image.

Donnée normale (Pizza) : Le chef réagit de manière cohérente. La logique tient bon.
Donnée anormale (Kiwi) : La logique se brise. Le chef est confus. C'est là qu'on détecte l'intrus.

🛠️ Comment ça marche concrètement ? (Sans réapprendre à cuisiner)

La grande force de GEPC, c'est qu'on n'a pas besoin de réentraîner le chef. On utilise simplement le chef tel qu'il est, déjà formé.

On prend l'image (même si elle est un peu floue ou bruitée).
On la transforme (on la tourne, on la retourne) selon un groupe de règles (comme un jeu de miroirs).
On demande au chef : "Qu'est-ce que tu penses de cette image transformée ?"
On ramène la réponse à la position originale.
On compare : La réponse du chef pour l'image originale et la réponse "ramenée" de l'image transformée sont-elles identiques ?
- Si oui : Tout va bien, c'est probablement une donnée normale.
- Si non : Il y a une incohérence. C'est probablement un intrus (OOD).

🌟 Pourquoi c'est génial ?

C'est gratuit et rapide : On n'a pas besoin de faire tourner le modèle des heures pour générer une image complète (comme le font certains autres détecteurs). On se contente de regarder la "réaction" du chef à un instant précis. C'est comme vérifier la cohérence d'une recette sans avoir à cuisiner tout le plat.
C'est interprétable : GEPC ne donne pas juste un score "Oui/Non". Il peut vous montrer où l'image pose problème.
- Exemple : Sur une image radar (utilisée pour repérer des bateaux), GEPC peut colorier en rouge la zone où le bateau brise la symétrie de la mer calme. C'est comme un détecteur de mensonge qui pointe du doigt le menteur.
Ça marche même sur des images complexes : Les auteurs l'ont testé sur des images de satellites (radar) pour repérer des bateaux dans la mer. Même si le modèle n'a jamais vu de bateaux (il a été entraîné sur des paysages naturels), GEPC a réussi à dire : "Hé, cette forme brise la symétrie de l'eau, c'est un bateau !"

🚀 En résumé

GEPC, c'est comme un inspecteur de police qui ne regarde pas si l'image est belle ou moche, mais qui vérifie si l'image respecte les lois de la symétrie que le modèle a apprises.

Si l'image respecte les lois (elle tourne bien, elle se retourne bien) ➡️ C'est un habitué (In-Distribution).
Si l'image casse les lois (elle se comporte bizarrement quand on la tourne) ➡️ C'est un intrus (Out-of-Distribution).

C'est une méthode intelligente, rapide et qui ne demande pas de réapprendre à l'IA, ce qui la rend très utile pour la sécurité et la détection d'anomalies dans des domaines critiques comme la surveillance radar.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection d'entrées hors distribution (OOD - Out-of-Distribution) est un défi fondamental pour le déploiement de modèles d'apprentissage machine fiables. Bien que les modèles de diffusion aient émergé comme des priors puissants pour cette tâche, les méthodes actuelles reposent principalement sur :

La magnitude du score (énergie).
La géométrie locale du champ de score (courbure, spectre de covariance).
Des trajectoires de génération ou des calculs de Jacobien coûteux.

Ces approches ignorent souvent une propriété clé des données naturelles et des architectures convolutives : l'équivariance approximative (symétries par rapport aux flips, rotations, décalages circulaires). Les auteurs postulent que si un modèle de diffusion est entraîné sur des données in-distribution (ID) possédant ces symétries, son champ de score appris devrait être approximativement équivariant pour les données ID. En revanche, pour des données OOD qui violent ces symétries ou s'éloignent de la variété ID, cette cohérence postérieure devrait se briser.

2. Méthodologie : GEPC

Les auteurs proposent GEPC (Group-Equivariant Posterior Consistency), une sonde sans entraînement (training-free) qui mesure la cohérence de la transformation du champ de score appris sous l'action d'un groupe fini $G$ .

Principe Fondamental

Contrairement aux tests d'invariance dans l'espace des pixels, GEPC sonde l'équivariance du champ de score $s_\theta(x_t, t)$ à des niveaux de bruit intermédiaires ( $x_t$ ).

Hypothèse : Pour une entrée ID, transformer l'entrée bruitée $x_t$ par une opération de groupe $g \in G$ (ex: rotation), puis transporter le score prédit $s_\theta(P_g x_t, t)$ de retour dans le cadre original via $P_g^{-1}$ , devrait redonner le score original $s_\theta(x_t, t)$ .
Signal OOD : Une violation systématique de cette égalité indique une rupture de symétrie, signalant une entrée OOD.

Définition Formelle

Pour un groupe $G$ agissant via des matrices orthogonales $P_g$ , le résidu d'équivariance est défini comme :
$\Delta_g f(x, t) = P_g^{-1} f(P_g x, t) - f(x, t)$
Le score GEPC pour une entrée $x_0$ est une moyenne pondérée des résidus énergétiques sur un ensemble de pas de temps $T$ et d'éléments de groupe $G$ :
$GEPC(x_0) = \sum_{t \in T} w_t \mathbb{E}_{x_t \sim q(\cdot|x_0), g \sim \nu_G} \left[ \| \Delta_g s_\theta(x_t, t) \|_2^2 \right]$
où $\nu_G$ est la distribution uniforme sur $G$ .

Mise en œuvre pratique

Échantillonnage : Pour un pas de temps $t$ , on génère $x_t$ à partir de $x_0$ .
Transport : On applique les transformations $P_g$ à $x_t$ pour obtenir $P_g x_t$ .
Évaluation : On calcule le score $s_\theta(P_g x_t, t)$ et on le ramène au cadre original.
Agrégation : On calcule l'énergie du résidu, on la normalise par l'énergie du score original (pour éviter les problèmes d'échelle), et on agrège sur plusieurs pas de temps et éléments de groupe.
Calibration : Le seuil de décision est calibré uniquement sur des données ID (via KDE, score-z ou Mahalanobis), sans aucune donnée OOD.

3. Contributions Clés

Introduction de GEPC : Un score OOD sans entraînement qui teste la cohérence de groupe des champs de score de diffusion. Il ne nécessite ni modification de l'architecture, ni fine-tuning, ni évaluation de Jacobien.
Analyse Théorique (Niveau Population) :
- Dérivation de bornes supérieures pour les résidus ID et de bornes inférieures pour les résidus OOD.
- Preuve que le résidu idéal est lié à un fonctionnel de rupture d'équivariance.
- Analyse du cas "cross-backbone" (modèle entraîné sur une source différente), montrant que le score GEPC augmente avec la distance à la variété source.
Recette Pratique : Une méthode complète incluant la sélection de pas de temps basée sur la stabilité (coefficient de variation), la pondération, et des stratégies de calibration robustes.
Performance et Efficacité : GEPC atteint des performances compétitives avec des méthodes plus coûteuses (trajectoires, courbure) tout en restant léger en calcul (seulement des évaluations de score forward).

4. Résultats Expérimentaux

Les auteurs évaluent GEPC sur deux régimes distincts :

A. Benchmarks Standard (32x32)

Données : CIFAR-10, SVHN, CelebA comme données ID, avec divers OOD (CIFAR-100, etc.).
Comparaison : GEPC est comparé à des baselines discriminatives (MSP, Energy) et génératives (DiffPath, SCOPED, LMD) utilisant le même backbone pré-entraîné (CelebA).
Résultat : GEPC obtient des AUROC compétitifs, souvent supérieurs aux méthodes basées sur la magnitude du score et comparables aux méthodes basées sur la courbure, mais avec un coût computationnel bien inférieur (pas de calcul de Jacobien).

B. Détection Cross-Domaine Haute Résolution (SAR)

Scénario : Utilisation d'un backbone entraîné sur LSUN-256 (images naturelles) pour détecter des anomalies sur des images SAR (Radar à Synthèse d'Ouverture) de haute résolution (256x256), sans aucun fine-tuning.
Tâche : Distinguer la mer (bruit de fond, ID) des navires et de leurs sillages (OOD).
Résultat :
- GEPC détecte fortement les navires et les sillages.
- Il génère des cartes de rupture d'équivariance interprétables qui localisent précisément les cibles, là où les méthodes basées sur la magnitude du score échouent souvent ou manquent de précision spatiale.
- Cela démontre la robustesse de GEPC même lorsque le modèle est appliqué à un domaine totalement différent de celui de son entraînement.

5. Signification et Impact

Nouveau Paradigme : GEPC déplace le focus de la magnitude du score (qui peut être ambiguë) vers la géométrie de la symétrie du modèle. Il exploite le fait que les modèles de diffusion apprennent implicitement les symétries des données d'entraînement.
Efficacité Computationnelle : En évitant les calculs de Jacobien ou les trajectoires de rétro-propagation complètes, GEPC offre un compromis coût/performance idéal pour la détection OOD en temps réel.
Interprétabilité : La capacité à produire des cartes de chaleur spatiales montrant où la symétrie est brisée est un avantage majeur pour les applications critiques (comme la détection de cibles militaires ou médicales), offrant une explication visuelle de la décision.
Généralisation : La méthode fonctionne même avec des backbones pré-entraînés sur des domaines différents, suggérant que les propriétés d'équivariance sont des signaux universels de cohérence de distribution.

En conclusion, GEPC propose une approche élégante et efficace pour la détection d'anomalies en exploitant les propriétés de symétrie inhérentes aux modèles de diffusion, comblant ainsi le fossé entre la théorie de l'équivariance et la pratique de la détection OOD.