Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez une photo de famille précieuse. Un jour, un "faussaire numérique" (un deepfake) vient modifier cette photo : il efface votre grand-père, remplace le chien par un chat, ou change le décor.

Jusqu'à présent, les technologies existantes faisaient deux choses :

Elles criaient au loup : "Hé, cette photo a été trafiquée !" (Détection).
Elles montraient où : "Regardez, c'est ici que le chat a été collé !" (Localisation).

Mais personne ne pouvait réparer la photo pour retrouver le grand-père et le chien d'origine. C'est comme si un détective vous disait : "Le voleur a volé votre montre, et il l'a prise par la fenêtre", mais sans vous donner la montre.

Ce papier propose une solution révolutionnaire : un système de "sauvegarde secrète" qui permet de restaurer la photo originale, même après qu'elle a été détruite.

Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le concept : La "Boîte à outils miniature" (Le Code Caché)

Au lieu d'essayer de cacher toute la photo originale dans la nouvelle (ce qui serait trop gros et rendrait l'image floue), les chercheurs ont inventé une méthode intelligente.

Imaginez que vous voulez envoyer un dessin complexe par la poste, mais la boîte aux lettres est très petite.

L'ancienne méthode : Vous essayez de plier le dessin en mille morceaux pour le faire entrer. Résultat : ça ne rentre pas, ou alors le papier se déchire dès qu'on le touche (la photo est abîmée).
La nouvelle méthode (Multi-échelle) : Vous ne cachez pas le dessin entier. Vous créez un plan de construction ultra-compact. C'est comme un code QR qui contient les instructions pour reconstruire le dessin, pièce par pièce, du plus gros au plus petit détail.

Ce "plan" est appelé un code caché multi-échelle. Il est si petit qu'il peut être dissimulé dans la photo sans qu'on le voie, comme une poussière invisible.

2. La stratégie : "L'Enquêteur et le Restaurateur"

Le système fonctionne en deux temps, comme un duo de détectives :

L'Enquêteur (Localisation) : Quand on reçoit la photo trafiquée, un premier module scanne l'image pour dire : "Attends, ici, c'est bizarre. C'est probablement un faux." Il dessine une carte des zones modifiées (comme un marqueur rouge sur les zones volées).
Le Restaurateur (Le Transformer) : C'est ici que la magie opère. Le système prend le "plan de construction" (le code caché) qu'il a réussi à extraire de la photo. Il regarde la carte de l'Enquêteur pour savoir quelles pièces manquent. Ensuite, il utilise une intelligence artificielle très avancée (un Transformer) pour réinventer les parties manquantes en se basant sur le plan.

C'est comme si vous aviez perdu une page de votre livre, mais que vous aviez gardé le sommaire détaillé et les notes de l'auteur. Le restaurateur peut réécrire la page manquante en respectant exactement l'histoire, le style et les personnages.

3. La grande innovation : "Plug-and-Play" (Prêt à l'emploi)

Ce qui rend ce travail spécial, c'est que ce système est universel.
Peu importe comment la photo a été protégée au départ (que ce soit avant qu'elle soit générée par une IA ou après), ce système peut s'adapter. C'est comme un adaptateur électrique universel : il se branche sur n'importe quelle prise (n'importe quel système de sécurité) pour fonctionner.

4. Pourquoi c'est important ? (La "Recherche de Vérité")

Le papier introduit aussi une nouvelle façon de tester ces systèmes. Ils ont créé une base de données appelée ImageNet-S.
Imaginez un jeu de "Qui est-ce ?" géant. Si on vous donne une photo restaurée, le système doit être capable de dire : "Cette photo correspond à l'original numéro 42 dans la banque de données", même si l'original a été volé.

Cela prouve que la photo restaurée n'est pas juste un "beau dessin" inventé par l'IA, mais qu'elle est fidèle à la réalité et permet de retrouver la vérité factuelle.

En résumé

Les chercheurs ont créé un système de sécurité qui ne se contente pas de dire "c'est faux", mais qui dit "voici comment le rendre vrai à nouveau".

Avant : On voyait le faux, mais on restait avec une photo abîmée.
Maintenant : On voit le faux, on localise les dégâts, et on utilise un "plan secret" caché dans l'image pour reconstruire la réalité, comme un archéologue qui reconstitue un vase brisé en utilisant des fragments minuscules cachés dans la poussière.

C'est un pas de géant vers la protection de notre vérité numérique, permettant de récupérer nos souvenirs et nos preuves même après une attaque numérique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'essor rapide des outils de génération et d'édition d'images (comme Stable Diffusion) a rendu la manipulation numérique accessible, menaçant l'authenticité des contenus. Bien que les recherches récentes se soient concentrées sur la détection et la localisation des deepfakes, la récupération des contenus altérés pour des fins de vérification factuelle reste sous-exploitée.

Les méthodes existantes souffrent de limitations majeures :

Méthodes de récupération sans filigrane : Elles nécessitent souvent des paires d'images (originale/altérée) pour l'entraînement ou se limitent à des régions spécifiques (comme les visages), ce qui les rend peu pratiques pour des images naturelles générales.
Filigranes d'auto-récupération traditionnels : Elles tentent d'encoder de grandes quantités d'informations visuelles (pixels bruts ou coefficients de transformée) directement dans l'image. Cela entraîne une forte demande en capacité de filigrane (souvent 2-4 bits par pixel), une dégradation significative de la qualité de l'image et une fragilité extrême face aux compressions ou au bruit, rendant la récupération impossible dans des conditions réalistes.

L'objectif de cet article est de proposer un cadre unifié capable de récupérer les images originales à partir de versions altérées et de retrouver les images factuelles correspondantes, tout en étant compatible avec divers paradigmes de filigranes (post-hoc et in-generation).

2. Méthodologie

L'approche proposée repose sur un cadre de récupération par code caché multi-échelle (Multi-Scale Hidden-Code).

A. Représentation Multi-Échelle et Quantisation Vectorielle

Au lieu d'encoder l'image brute, la méthode utilise un VQ-VAE (Vector Quantized Variational Autoencoder) pour représenter l'image sous forme de cartes de tokens discrets à plusieurs échelles ( $z_{s1}, \dots, z_{sK}$ ).

Stratégie d'entraînement avec Dropout : Pour éviter que l'information sémantique ne soit concentrée uniquement dans les dernières échelles (comme c'est le cas dans les modèles VAR standards), les auteurs utilisent une stratégie de dropout aléatoire des échelles supérieures durant l'entraînement. Cela force le modèle à encoder des informations sémantiques significatives dès les premières échelles (plus grossières), garantissant que même une partie du code caché permette une reconstruction partielle mais cohérente.
Encodage : Les tokens quantifiés sont convertis en un flux binaire compact ( $h$ ) via les indices de la codebook. Ce flux est beaucoup plus petit que l'image originale, réduisant ainsi la charge d'information à cacher.

B. Intégration "Plug-and-Play"

Le cadre est conçu pour être compatible avec deux types de systèmes de filigranes :

Filigranes Post-Hoc (après génération) : Intégration avec des modèles comme EditGuard. Le filigrane de localisation et le code caché sont injectés dans l'image propre avant toute altération.
Filigranes In-Generation (pendant la génération) : Adaptation aux modèles comme Gaussian Shading (basés sur Stable Diffusion). Une procédure d'optimisation basée sur l'inversion DDIM est utilisée pour trouver le bruit initial ( $x'_T$ ) qui, une fois généré, produira l'image souhaitée tout en contenant le code caché.

C. Processus de Récupération et de Recherche Factuelle

Lorsqu'une image altérée ( $I_d$ ) est détectée :

Extraction : Le modèle extrait le code caché quantifié ( $h'$ ) et une carte de localisation des altérations ( $M'_{loc}$ ).
Reconstruction Conditionnelle : Un Transformer conditionnel utilise le code extrait ( $h'$ ) comme contexte initial. Il prédit séquentiellement les échelles de tokens manquantes ou corrompues. La carte de localisation guide la fusion : les zones intactes de l'image altérée sont conservées, tandis que les zones corrompues sont régénérées à partir des tokens prédits par le modèle.
Récupération Factuelle (Factual Retrieval) : L'image reconstruite ( $I_r$ ) est utilisée pour interroger une base de données d'images. La similarité sémantique est mesurée via CLIP (cosine similarity) pour retrouver l'image originale ou son étiquette sémantique, même si l'image exacte n'est pas présente dans la base de données (recherche par classe).

3. Contributions Clés

Stratégie de Filigrane Latent Multi-Échelle : Une méthode robuste et à faible surcharge qui encode des informations sémantiques essentielles sous forme de tokens quantifiés, permettant une auto-récupération efficace sans nécessiter de connaître à l'avance les zones altérées.
Mécanisme de Masquage par Quantisation : Un équilibre optimisé entre capacité, imperceptibilité et robustesse face à la compression et au bruit, surpassant les méthodes traditionnelles basées sur les bits de poids faible (LSB).
Compatibilité Universelle : Le cadre fonctionne de manière transparente avec les pipelines de filigranes existants (post-hoc et in-generation), offrant une flexibilité de déploiement.
Benchmark ImageNet-S : Création d'un nouveau jeu de données étiqueté avec des triplets (image propre, étiquette, masque d'altération) pour évaluer systématiquement la récupération et la recherche factuelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark ImageNet-S avec des altérations générées par Stable Diffusion.

Précision de Récupération : La méthode proposée (avec Transformer conditionnel) atteint une précision de Top-1 Label de 92,31 % et une précision de Top-1 Image de 87,44 %, surpassant nettement les méthodes de référence comme HiNet, RePaint, VQGAN et VAR.
Robustesse : Contrairement aux filigranes fragiles traditionnels qui échouent sous JPEG ou flou gaussien, la méthode proposée maintient une précision de bits (Bit Accuracy) proche de 1,00 même après des dégradations sévères.
Qualité Visuelle : Les images reconstruites préservent la cohérence structurelle et sémantique (scores CLIP élevés de 0,91), évitant les artefacts de texture et les dérives sémantiques observées chez les concurrents.
Résistance à la Contrefaçon : L'utilisation d'un filigrane dépendant du contenu (Content-Dependent Watermark) empêche efficacement la transplantation de filigranes. Les attaques par moyenne ou estimation de bruit réduisent la précision de l'attaquant au niveau du hasard (≈0,5), prouvant la sécurité du système.

5. Signification et Impact

Cet article marque un changement de paradigme dans la lutte contre les deepfakes : passer d'une approche purement détection/localisation à une approche de récupération et vérification factuelle.

Au-delà de la détection : Il ne suffit plus de dire "c'est un faux", il faut pouvoir restaurer la vérité pour des enquêtes judiciaires ou journalistiques.
Efficacité et Robustesse : En passant d'une approche basée sur les pixels à une approche basée sur les tokens latents quantifiés, les auteurs résolvent le problème de la capacité de stockage et de la fragilité des filigranes d'auto-récupération.
Standardisation : La création du benchmark ImageNet-S fournit une base standardisée pour les futures recherches dans ce domaine émergent.

En résumé, ce travail établit une fondation solide pour la récupération d'images naturelles généralistes, offrant un outil puissant pour restaurer l'intégrité des contenus numériques compromis.