CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Détecter les faux dans un monde de super-faux

Imaginez que vous êtes un détective chargé de repérer les photos truquées. Autrefois, c'était facile : les faux avaient des défauts évidents, comme des mains avec six doigts ou des ombres bizarres. Mais aujourd'hui, avec les nouvelles technologies (comme les modèles de diffusion ou les GAN), les faux sont si parfaits qu'ils ressemblent à des photos réelles.

Le vrai problème, c'est que les détecteurs actuels (les "détecteurs d'IA") sont comme des étudiants qui apprennent par cœur.

Si vous leur montrez des faux faits par un artiste nommé "StyleGAN", ils apprennent à repérer les petites taches spécifiques à StyleGAN.
Mais si vous leur montrez un faux fait par un autre artiste, "Midjourney", ils sont perdus ! Ils ne reconnaissent pas le nouveau style. Ils ont appris les "accidents" de l'ancien faux, pas la vraie nature du mensonge.

C'est ce que les chercheurs appellent le surapprentissage : le détecteur se focalise sur des détails inutiles (comme la texture d'un tissu spécifique) plutôt que sur la preuve fondamentale que l'image est fausse.

💡 La Solution : CausalCLIP, le détective qui comprend la "cause"

Les auteurs de cet article proposent une nouvelle méthode appelée CausalCLIP. Pour comprendre comment ça marche, utilisons une analogie culinaire.

1. L'Analogie du Chef et du Faux-Nez

Imaginez que vous essayez de repérer un imposteur dans une foule.

Les anciennes méthodes regardent tout le monde et disent : "Tiens, celui-là porte un chapeau rouge, donc c'est un imposteur !" (C'est une coïncidence, pas une preuve).
CausalCLIP, lui, dit : "Attends, le chapeau rouge n'est pas la preuve. La vraie preuve, c'est que cet homme a un visage qui ne correspond pas à son corps. Je vais ignorer le chapeau (le bruit) et me concentrer uniquement sur le visage (la cause)."

CausalCLIP fonctionne en deux étapes magiques :

Étape 1 : Le Tri (La "Factorisation")

L'image passe d'abord à travers un filtre très intelligent (basé sur un modèle appelé CLIP). Imaginez que ce filtre est un tamis à double fond.

Il sépare les ingrédients de l'image en deux tas :
- Le Tas "Vrai" (Causal) : Ce sont les indices qui prouvent vraiment que l'image est fausse, peu importe qui l'a faite (ex: des incohérences physiques impossibles). C'est la "cause" du mensonge.
- Le Tas "Bruit" (Non-causal) : Ce sont les détails spécifiques à un seul type de faux (ex: une couleur particulière, un style de peinture). C'est du bruit qui trompe les autres détecteurs.

Étape 2 : Le Filtre Adversaire (Le "Jeu du Chat et de la Souris")

Une fois les ingrédients séparés, CausalCLIP lance un petit jeu :

Il donne le Tas "Vrai" à un détective (le classificateur) et lui demande : "Est-ce un faux ?".
Il donne le Tas "Bruit" à un espion (l'adversaire) et lui demande : "Peux-tu deviner si c'est un faux juste avec ce bruit ?".
L'astuce : Le détective essaie de devenir si fort qu'il n'a plus besoin du bruit pour deviner. En même temps, le système s'assure que l'espion échoue totalement à deviner avec le bruit.

Si l'espion échoue, c'est gagné ! Cela signifie que le système a réussi à éliminer tout ce qui pouvait tromper le détective. Il ne reste que la preuve pure et infaillible.

🚀 Pourquoi c'est génial ? (Les Résultats)

Grâce à cette méthode, CausalCLIP ne se contente pas de "mémoriser" les faux. Il comprend pourquoi une image est fausse.

Résultat : Quand on lui montre un type de faux qu'il n'a jamais vu auparavant (par exemple, un nouveau modèle d'IA sorti hier), il continue de fonctionner parfaitement.
Comparaison : Les autres méthodes (comme UnivFD ou VIB-Net) chutent en performance dès qu'elles voient un nouveau style. CausalCLIP, lui, reste stable, comme un roc.
Chiffres : Il est environ 6 à 7 % plus précis que les meilleurs détecteurs actuels sur des images totalement nouvelles.

🎯 En résumé

Imaginez que vous apprenez à conduire.

Les anciennes méthodes apprennent à conduire uniquement sur la route de Paris. Si vous les emmenez à Lyon, elles ne savent plus conduire.
CausalCLIP, lui, apprend les règles de la route (la cause). Peu importe la ville (Paris, Lyon, ou une ville imaginaire), il sait conduire parce qu'il a compris la logique fondamentale, pas juste la géographie.

C'est cette capacité à séparer la vérité universelle du bruit spécifique qui rend CausalCLIP si puissant pour protéger notre société contre les fausses images.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'avancement rapide des modèles génératifs (GANs, modèles de diffusion comme Stable Diffusion) a rendu la détection d'images synthétiques de plus en plus difficile. Bien que les méthodes existantes, y compris celles utilisant des modèles pré-entraînés vision-langage (comme CLIP), améliorent la détection, elles souffrent d'un problème fondamental : le manque de généralisation.

Représentations entremêlées : Les caractéristiques extraites par CLIP mélangent des indices forensiques pertinents pour la tâche (les "caractéristiques causales" qui indiquent réellement si une image est générée) avec des motifs spurs ou spécifiques au jeu de données d'entraînement (les "caractéristiques non-causales", comme des artefacts de compression JPEG ou des biais stylistiques).
Surapprentissage : Les méthodes actuelles tendent à surapprendre ces artefacts spécifiques à un générateur donné. Lorsqu'elles sont confrontées à de nouveaux modèles génératifs (inconnus lors de l'entraînement), leurs performances chutent drastiquement car les indices qu'elles utilisent ne sont plus valables.
Limites des approches précédentes : Des méthodes comme VIB-Net tentent de supprimer les caractéristiques non pertinentes via un goulot d'étranglement (Information Bottleneck), mais sans séparer explicitement les causes des effets, ce qui conduit à un filtrage grossier et à une généralisation sous-optimale.

2. Méthodologie : CausalCLIP

Le papier propose CausalCLIP, un cadre d'apprentissage de représentations causales qui adopte une stratégie "désenchevêtrer puis filtrer" (disentangle-then-filter). L'objectif est d'isoler les indices forensiques stables (causaux) des artefacts variables (non-causaux).

L'architecture repose sur trois modules principaux, illustrés dans la Figure 2 du papier :

A. Module de Factorisation (Désenchevêtrement)

Ce module vise à séparer les caractéristiques extraites par un encodeur CLIP gelé (ViT-L/14) en deux composantes :

$Z_c$ (Caractéristiques causales) : Indices forensiques intrinsèques et stables, indépendants du générateur spécifique.
$Z_{nc}$ (Caractéristiques non-causales) : Artefacts spécifiques au générateur ou au jeu de données.
Mécanisme : Un masque de caractéristiques $M$ est appris pour séparer ces composantes via une multiplication élémentaire. Le masque est paramétré par une fonction Gumbel-Softmax, permettant une sélection de caractéristiques différentiable et parcimonieuse.

B. Module de Masquage Adversarial

Pour garantir que le classifieur ne dépende que des caractéristiques causales, un mécanisme adversarial est introduit :

Jeu Minimax :
- Un classifieur tente de prédire "Réel" vs "Faux" en utilisant uniquement les caractéristiques causales masquées ( $\tilde{Z}_c$ ).
- Un adversaire tente de prédire la même chose en utilisant uniquement les caractéristiques non-causales masquées ( $\tilde{Z}_{nc}$ ).
Objectif : Le masque et le classifieur sont optimisés pour minimiser la perte de classification tout en rendant les caractéristiques non-causales inutilisables pour l'adversaire. Cela force le modèle à ignorer les artefacts spurs.

C. Intervention Contrefactuelle et Régularisation

Pour renforcer la robustesse :

Indépendance Statistique : Une contrainte basée sur le critère HSIC (Hilbert-Schmidt Independence Criterion) est appliquée pour assurer l'indépendance statistique entre les sous-espaces causaux et non-causaux.
Interventions Contrefactuelles : Des dimensions aléatoires des caractéristiques causales sont masquées (perturbation) pour simuler des changements de distribution. Le modèle est contraint de maintenir une prédiction cohérente (perte de consistance KL), assurant ainsi que les décisions reposent sur des sémantiques stables et non sur des indices dépendants du générateur.

Fonction de perte globale :
La fonction de perte totale ( $L_{total}$ ) combine la perte de classification, la perte adversaire, la régularisation du masque (sparsité + HSIC) et la perte d'invariance contrefactuelle.

3. Contributions Clés

Paradigme "Désenchevêtrer puis Filtrer" : CausalCLIP est la première méthode à séparer explicitement les caractéristiques causales des non-causales avant le filtrage, évitant ainsi le rejet accidentel d'indices forensiques pertinents.
Apprentissage de Représentation Causale : Utilisation de modèles causaux structurels (SCM), de masquage adversarial et d'interventions contrefactuelles pour créer des représentations robustes aux changements de distribution.
Généralisation Supérieure : La méthode démontre une capacité exceptionnelle à détecter des images générées par des modèles jamais vus lors de l'entraînement, surpassant les méthodes de l'état de l'art (SOTA).

4. Résultats Expérimentaux

Les expériences ont été menées sur 15 jeux de données de test couvrant divers GANs (ProGAN, StyleGAN, BigGAN, etc.) et modèles de diffusion (Stable Diffusion v1.4/v1.5, ADM, GLIDE, Midjourney, etc.).

Scénario d'entraînement sur Diffusion (SDv1.4) :
- CausalCLIP a obtenu une amélioration de 6,83 % en précision (ACC) et 4,06 % en précision moyenne (AP) par rapport aux méthodes SOTA les plus proches (comme VIB-Net et CLIPping) sur des générateurs inconnus.
- Il maintient des performances élevées (>90% d'ACC) même sur des modèles très différents comme ADM ou Midjourney, là où d'autres méthodes chutent en dessous de 60%.
Scénario d'entraînement sur GAN (ProGAN) :
- Lors de l'entraînement sur ProGAN et du test sur des modèles de diffusion, CausalCLIP a surpassé tous les baselines, avec des gains de 8,57 % en ACC et 2,64 % en AP sur les générateurs de diffusion non vus.
Analyse d'ablation :
- La combinaison des modules de factorisation et de masquage est essentielle. L'ajout du module de factorisation seul apporte +14% de gain, tandis que le masquage seul apporte +5%. Leur combinaison atteint les meilleurs résultats.
- La visualisation UMAP montre que CausalCLIP sépare clairement les images réelles et générées, même pour des générateurs non vus, contrairement à CLIP (entremêlé) ou VIB (séparation partielle).
Robustesse :
- La méthode conserve sa performance face à des perturbations comme la compression JPEG et le flou gaussien, là où les méthodes concurrentes se dégradent rapidement.

5. Signification et Impact

CausalCLIP représente une avancée significative dans le domaine de la forensique numérique. En passant d'une approche basée sur la corrélation (qui capture des artefacts éphémères) à une approche basée sur la causalité, le papier propose une solution théoriquement fondée pour le problème de la généralisation.

Sécurité Sociétale : Cette méthode offre un outil plus fiable pour détecter la désinformation et les deepfakes, indépendamment de l'évolution rapide des technologies génératives.
Direction de Recherche : Elle valide l'hypothèse que la séparation explicite des facteurs causaux et non-causaux est la clé pour construire des détecteurs d'IA générative véritablement universels et robustes.

En conclusion, CausalCLIP établit un nouvel état de l'art en démontrant que l'intégration de principes d'inférence causale dans l'apprentissage de représentations permet de surmonter les limites de généralisation des méthodes actuelles.