FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ FOCA : Le Détective qui voit l'Invisible

Imaginez que vous regardez une photo. Elle semble parfaite : un chat sur un tapis, un coucher de soleil, ou une personne souriante. Mais est-ce que cette photo est vraie ? Ou a-t-elle été truquée par un ordinateur ultra-puissant (l'IA générative) ?

Aujourd'hui, les faussaires sont devenus si forts qu'ils peuvent créer des images qui trompent même nos yeux et les détecteurs classiques. C'est là qu'intervient FOCA.

1. Le Problème : Les Détecteurs sont "Myopes"

Les anciens détecteurs de faux (les méthodes existantes) fonctionnent un peu comme des gens qui regardent une peinture uniquement pour ses couleurs et ses formes. Ils disent : "Tiens, le chat a l'air réaliste, donc c'est vrai."

Le problème ? Les faussaires modernes sont si habiles qu'ils copient parfaitement les couleurs et les formes. Mais ils laissent souvent des micro-traces invisibles dans les détails techniques de l'image, un peu comme des empreintes digitales laissées sur une vitre que l'on ne voit pas à l'œil nu. Les anciens détecteurs ignorent ces traces.

2. La Solution FOCA : Le Super-Détective Bilingue

L'équipe derrière FOCA a créé un nouveau détective, basé sur un Grand Modèle de Langage Multimodal (MLLM). C'est une intelligence artificielle très intelligente qui peut "voir" et "parler".

Mais FOCA a un super-pouvoir spécial : il est bilingue.

Langue 1 (Le Visible) : Il regarde l'image normale (les couleurs, les objets).
Langue 2 (L'Invisible) : Il regarde l'image dans le domaine des fréquences.

L'analogie de la Radio 📻 :
Imaginez que l'image est une chanson.

Le domaine visible (RGB), c'est la mélodie que vous entendez (la voix du chanteur).
Le domaine des fréquences, c'est le bruit de fond, les grésillements ou les harmoniques cachées.

Quand un faussaire modifie une image avec l'IA, il change la mélodie, mais il laisse souvent un "grésillement" bizarre dans le fond (des artefacts haute fréquence). FOCA est capable d'écouter cette radio pour entendre le grésillement que les autres ignorent.

3. Comment ça marche ? (Le Mécanisme)

FOCA utilise une sorte de loupe magique appelée Fusion d'Attention Fréquentielle (FAF).

La Loupe (DWT) : FOCA prend l'image et la passe dans un filtre mathématique (la Transformée en Ondelettes Discrète) qui sépare l'image en deux : ce qui est lisse (le fond) et ce qui est très détaillé (les bords, les textures). C'est ici qu'il trouve les "grésillements" du faux.
La Fusion : Il combine cette information "bruyante" avec l'image normale. C'est comme si vous donniez au détective une photo normale ET une photo en rayons X en même temps.
Le Dialogue : FOCA ne se contente pas de dire "C'est faux". Il parle ! Il vous dit : "Regarde ici, dans le coin inférieur gauche, sur l'herbe. La texture est bizarre, comme si quelqu'un avait collé un morceau de papier. Et dans les fréquences, on voit un motif qui ne devrait pas être là."

4. La Grande Bibliothèque d'Entraînement (FSE-Set)

Pour entraîner ce détective, les chercheurs ont créé une bibliothèque géante appelée FSE-Set.

C'est comme une école de police avec 100 000 cas.
50 000 photos vraies.
50 000 photos truquées (certaines par des techniques classiques, d'autres par l'IA moderne).
Le plus important : Chaque photo truquée est accompagnée d'un rapport détaillé écrit par une IA (Claude) qui explique pourquoi c'est faux, en regardant à la fois l'image normale et ses "grésillements" cachés. Cela permet à FOCA d'apprendre à expliquer ses soupçons comme un humain.

5. Les Résultats : Pourquoi c'est génial ?

Les tests ont montré que FOCA est le meilleur détective actuel :

Plus précis : Il trouve les faux avec une précision de 96 %, battant tous les autres détecteurs.
Plus précis sur la localisation : Il ne dit pas juste "c'est faux", il vous montre exactement où est le faux (pixel par pixel), comme un surlignage sur une copie.
Plus explicatif : C'est là que FOCA brille. Il peut dire à un humain : "Cette photo est truquée parce que l'ombre du chat ne correspond pas à la lumière, et les fréquences montrent des motifs répétitifs typiques de l'IA."

En Résumé 🎯

FOCA, c'est comme donner à un détective privé deux paires de lunettes :

Une paire normale pour voir l'histoire de la photo.
Une paire de lunettes infrarouges pour voir les traces chimiques laissées par le faussaire.

En combinant ces deux vues et en apprenant à expliquer ses découvertes en langage clair, FOCA nous aide à retrouver la vérité dans un monde où les images peuvent mentir. C'est un outil puissant pour protéger notre confiance dans ce que nous voyons sur internet.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : FOCA

1. Problématique

L'avancement rapide des modèles génératifs (comme les GANs et les modèles de diffusion) a rendu la détection de faux numériques (image forgery) de plus en plus difficile. Les images synthétiques et les modifications réalistes imitent désormais les statistiques des images naturelles, trompant les méthodes traditionnelles.
Les limites des approches existantes sont doubles :

Dépendance excessive au contenu sémantique : La plupart des méthodes se concentrent sur le domaine spatial (RGB) et négligent les indices texturaux subtils et les artefacts de haute fréquence laissés par la manipulation.
Manque d'interprétabilité : Les modèles actuels fournissent souvent uniquement un score de détection ou un masque de segmentation, sans offrir d'explications humaines compréhensibles sur pourquoi une image est considérée comme falsifiée, ni sur la nature des artefacts.

2. Méthodologie : Le Framework FOCA

Les auteurs proposent FOCA, un cadre basé sur un Modèle de Langage Multimodal (MLLM) conçu pour intégrer des indices de détection dans les domaines spatial et fréquentiel, tout en générant des explications textuelles.

L'architecture se compose de trois modules principaux :

Fusion par Attention Fréquentielle (FAF - Frequency Attention Fusion) :
- Ce module extrait les composantes haute fréquence de l'image d'entrée en utilisant la Transformée en Ondelettes Discrète (DWT).
- Il génère une sous-bande $x_{HH}$ (hautes fréquences) qui révèle souvent les artefacts de falsification invisibles à l'œil nu.
- Un mécanisme d'attention croisée fusionne dynamiquement ces caractéristiques fréquentielles avec les caractéristiques spatiales originales (RGB). Ici, la sous-bande haute fréquence agit comme une "requête" (query) pour guider l'attention sur les régions pertinentes de l'image spatiale.
- Une connexion résiduelle assure la préservation des informations basse et moyenne fréquence tout en amplifiant les détails critiques pour la localisation.
Backbone MLLM et Tokens Spéciaux :
- Le modèle utilise un MLLM (basé sur LISA-7B) qui reçoit l'image fusionnée et une instruction textuelle.
- Le vocabulaire du MLLM est étendu avec deux tokens spéciaux :
  - [CLS] : Pour la classification binaire (Vrai/Faux).
  - [SEG] : Pour la génération de masques de segmentation au niveau du pixel.
- Le modèle est entraîné avec LoRA (Low-Rank Adaptation) pour ajuster efficacement les paramètres sans dégrader les capacités pré-entraînées.
Module de Segmentation et Objectifs d'Entraînement :
- Un encodeur d'image figé (SAM) et un décodeur génèrent le masque de falsification à partir des embeddings du token [SEG].
- La fonction de perte globale combine :
  - Une perte de prédiction ( $L_{pred}$ ) : Incluant la perte de classification, la perte de génération de texte (explications) et la perte de segmentation (combinaison de BCE et Dice).
  - Une perte de contraste ( $L_{cl}$ ) : Inspirée de l'apprentissage contrastif, elle force le modèle à apprendre des représentations discriminatives en rapprochant les paires positives (image originale vs image traitée) et en éloignant les négatives.

3. Contributions Clés

FOCA (Le Modèle) : C'est le premier framework basé sur un MLLM qui intègre explicitement des indices de domaine fréquentiel (via DWT et attention croisée) avec le raisonnement sémantique. Cela permet non seulement de détecter et localiser les falsifications avec une grande précision, mais aussi de fournir des explications explicites et interprétables par l'humain dans les deux domaines (spatial et fréquentiel).
FSE-Set (Le Dataset) : Les auteurs ont construit un nouveau jeu de données à grande échelle contenant 100 000 images (50k réelles, 50k falsifiées).
- Il inclut des manipulations traditionnelles (collage, copie-mouvement) et des edits générés par IA (Stable Diffusion).
- Il fournit des masques au niveau du pixel et, de manière unique, des explications textuelles dual-domaines (analysant à la fois l'image RGB et sa sous-bande fréquentielle HH) générées par des LLMs avancés (Claude).
Performance et Interprétabilité : La méthode démontre une supériorité sur l'état de l'art (SOTA) en matière de précision de détection et de localisation, tout en offrant une capacité d'explication supérieure.

4. Résultats Expérimentaux

Les expériences ont été menées sur FSE-Set, CASIAv1 et Columbia.

Détection : FOCA atteint une précision globale de 96,2 % et un F1-score de 96,2 %, surpassant les méthodes traditionnelles (CnnSpott, Fusing, UnivFD) et les autres MLLMs (SIDA, Qwen, InternVL3). Il montre une robustesse particulière dans la détection des images falsifiées (Tampered), où il bat SIDA (96,3 % contre 95,6 %).
Localisation : FOCA obtient les meilleurs résultats en termes d'IoU et de F1 sur les jeux de données FSE-Set et Columbia, surpassant SIDA de +0,7 IoU et +0,7 F1 sur FSE-Set. Cette performance est attribuée au module FAF qui lie les incohérences sémantiques aux traces fréquentielles.
Explication (Interprétabilité) : Évalué via ROUGE-L, similarité cosinus et un juge LLM (GPT-4o), FOCA surpasse tous les concurrents dans la génération d'explications naturelles et précises sur les artefacts de falsification.

5. Signification et Impact

Ce travail marque une avancée significative dans la forensique numérique en :

Bridging le fossé sémantique-fréquentiel : Il prouve que l'intégration de l'analyse fréquentielle dans les MLLMs est cruciale pour détecter les falsifications modernes qui échappent aux analyses purement spatiales.
Améliorant la confiance : En fournissant des explications textuelles détaillées (le "pourquoi" et le "où"), FOCA rend la détection de faux plus transparente et fiable pour les enquêteurs et le grand public.
Offrant une ressource standardisée : Le dataset FSE-Set comble le manque de données annotées avec des explications multi-domaines, facilitant la recherche future sur l'analyse de falsifications interprétables.

En conclusion, FOCA représente une évolution vers des systèmes de détection de faux non seulement plus précis, mais aussi capables de "raisonner" et d'expliquer leurs décisions en combinant la puissance des grands modèles de langage avec la sensibilité aux artefacts de bas niveau.