Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : L'Enquêteur qui ne voit pas les faux

Imaginez que vous êtes un détective spécialisé dans la détection de faux documents (comme des factures ou des contrats modifiés). Votre travail consiste à repérer les zones où quelqu'un a triché.

Le problème, c'est que pour entraîner votre cerveau (ou un logiciel d'intelligence artificielle) à devenir un super-détective, vous avez besoin de milliers d'exemples de faux documents.

Le souci : Les vrais faux documents sont rares et secrets.
L'ancienne solution : Les chercheurs créaient des faux en utilisant des règles rigides (comme un robot qui colle des bouts de texte).
Le résultat : Ces faux ressemblaient à des contrefaçons faites par un débutant maladroit. On voyait des coupures nettes, des polices d'écriture différentes, des couleurs qui ne matchaient pas. C'était trop facile à repérer ! L'IA apprenait à repérer ces "traces de débutant" mais échouait dès qu'elle voyait un vrai faux fait par un expert.

🚀 La Solution : L'Atelier de Faux "Parfait"

Les auteurs de ce papier ont créé un nouvel atelier de fabrication de faux documents qui est beaucoup plus intelligent. Au lieu de suivre des règles rigides, ils ont construit deux "assistants" (des réseaux de neurones) pour guider la création.

Voici comment ils fonctionnent, avec une analogie simple :

1. L'Assistant "Jumeau Visuel" (La Similarité)

Imaginez que vous voulez remplacer un mot sur un document par un autre mot venant d'un autre document.

L'ancien robot : Il prenait n'importe quel mot, peu importe la couleur ou la police. Résultat : un mot rouge collé sur un texte noir. C'est suspect !
L'Assistant "Jumeau" : Il agit comme un expert en mode. Il regarde le mot que vous voulez coller et cherche exactement le même style ailleurs.
- Est-ce que la police est la même ?
- Est-ce que la couleur de l'encre est identique ?
- Est-ce que le flou de l'image est le même ?
- Est-ce que l'éclairage correspond ?
- Son outil : Il utilise une technique appelée "apprentissage contrastif". C'est comme un jeu de "trouvez la paire" : il apprend à dire "Ces deux bouts de papier se ressemblent à 100%" ou "Non, celui-ci est trop différent".

2. L'Assistant "Chirurgien Précis" (La Qualité de la Boîte)

Parfois, même si le texte ressemble, le découpage est raté.

L'ancien robot : Il prenait un rectangle pour copier du texte. Parfois, ce rectangle coupait le bas d'une lettre "a" ou incluait le haut d'une lettre voisine. C'est une trace visible de triche.
L'Assistant "Chirurgien" : Il vérifie le découpage avant de valider. Il demande : "Est-ce que ce rectangle contient exactement les lettres voulues, sans en couper une seule et sans en prendre une autre ?"
- Si la réponse est "Non, on coupe une lettre", il jette ce morceau et en cherche un autre.
- Il agit comme un chirurgien qui s'assure de ne pas blesser les tissus sains autour de l'opération.

🎨 Le Résultat : Des Faux Indétectables (au premier coup d'œil)

En combinant ces deux assistants, les chercheurs ont pu générer 2,8 millions de faux documents (un nombre énorme !) qui sont :

Visuellement parfaits : Le texte collé se fond parfaitement dans le décor (même police, même couleur, même éclairage).
Proprement découpés : Pas de lettres coupées en deux.

C'est comme si vous aviez un faussaire professionnel qui travaille pour vous, mais à une vitesse de machine.

🏆 Pourquoi c'est important ?

Pour entraîner les vrais détecteurs (les IA qui doivent trouver les faux), il faut leur montrer des cas difficiles.

Si vous entraînez un détective avec des faux "moches" (faits par l'ancien robot), il devient paresseux. Il dit "Ah, c'est faux parce qu'il y a une tache de couleur bizarre".
Si vous l'entraînez avec vos nouveaux faux parfaits, il est obligé de chercher des indices plus subtils et réels.

Le résultat final : Les modèles d'IA entraînés avec cette nouvelle méthode sont beaucoup plus forts. Quand on les teste sur de vrais documents falsifiés par des humains (avec des outils comme Photoshop), ils réussissent beaucoup mieux à trouver la triche que les modèles entraînés avec les anciennes méthodes.

En résumé

Les auteurs ont remplacé un robot bricoleur (qui fait des faux moches) par un atelier de haute couture assisté par deux experts (un pour le style, un pour la précision). Cela permet de créer des millions de fausses preuves parfaites pour entraîner nos détecteurs à devenir de véritables experts de la détection de fraude.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection de textes falsifiés dans les images de documents est une tâche cruciale pour la sécurité, mais elle se heurte à un obstacle majeur : la pénurie de données d'entraînement réalistes.

Limites des méthodes actuelles : Les approches précédentes reposent sur des pipelines basés sur des règles (copier-coller, insertion, effacement) pour générer des documents falsifiés synthétiques. Ces méthodes produisent souvent des artefacts visuels très apparents (incohérences de police, coupures de caractères, couleurs de fond inadaptées) qui ne reflètent pas la qualité des manipulations humaines réelles.
Conséquence : Les modèles entraînés sur ces données apprennent à détecter ces artefacts faciles ("shortcuts") plutôt que des caractéristiques robustes, ce qui entraîne une mauvaise généralisation sur des données réelles ou des manipulations de haute qualité.
Objectif : Développer un pipeline de génération de données capable de produire des documents falsifiés diversifiés et de haute qualité, indistinguables des manipulations humaines, pour pré-entraîner des modèles de détection robustes.

2. Méthodologie

L'approche proposée introduit un pipeline de génération guidé par deux réseaux de neurones auxiliaires entraînés spécifiquement pour évaluer la qualité visuelle et la cohérence des zones de texte.

A. Deux Réseaux Auxiliaires Clés

Réseau de Similarité de Crops ( $F_\theta$ ) :
- Fonction : Comparer deux zones de texte (crops) pour évaluer leur similarité visuelle (police, taille, couleur, alignement, bruit, flou, etc.).
- Apprentissage : Utilise un apprentissage contrastif novateur.
  - Paires positives : Des segments de texte adjacents sur la même ligne d'un document (partageant naturellement les mêmes propriétés visuelles).
  - Paires négatives : Des segments de même nombre de caractères mais situés sur des lignes différentes ou provenant d'images différentes, garantissant une différence visuelle.
  - Hard Negatives : Des versions altérées des crops (décalages, transformations visuelles) pour renforcer la robustesse du modèle.
- Architecture : Un réseau léger (type ConvNeXt) avec deux têtes d'encodage : une pour le texte (foreground) et une pour le fond (background), permettant de gérer aussi bien les zones de texte que les zones vides.
Réseau d'Évaluation de la Qualité des Boîtes ( $G_\theta$ ) :
- Fonction : Vérifier si une boîte englobante (bounding box) encadre parfaitement les caractères sans les couper ni inclure des parties de caractères voisins.
- Approche : Contrairement aux algorithmes classiques lents (comme Sauvola ou l'analyse de composantes connectées), ce réseau est un CNN léger entraîné de manière supervisée. Il prend en entrée le crop et ses bandes contextuelles immédiates (haut, bas, gauche, droite) pour prédire une qualité de 0 à 1.
- Avantage : Offre une accélération d'environ 10x par rapport aux méthodes algorithmiques traditionnelles tout en étant plus précis.

B. Pipeline de Génération Unifié

Le pipeline utilise $F_\theta$ et $G_\theta$ pour générer cinq types de falsifications :

Copie-déplacement (Copy-move) & Collage (Splicing) : Sélection d'un crop source dans une image et insertion dans une image cible. Le choix du source est optimisé pour maximiser la similarité avec la zone cible ( $F_\theta$ ) et garantir une boîte de qualité ( $G_\theta$ ).
Insertion : Rendu de nouveau texte en choisissant la police et la couleur qui minimisent la distance de similarité avec le contexte environnant.
Inpainting : Effacement de texte avec remplissage du fond.
Couverture (Coverage) : Masquage d'une zone de texte par un patch de fond similaire.

Le processus filtre rigoureusement les candidats : seules les paires source-cible ayant un score de similarité élevé et une boîte de qualité élevée sont conservées pour la génération.

3. Contributions Principales

Deux réseaux auxiliaires novateurs : Un réseau d'estimation de similarité basé sur l'apprentissage contrastif et un réseau d'évaluation de la qualité des boîtes, conçus spécifiquement pour la génération de données.
Pipeline de génération de haute qualité : Un cadre unifié capable de produire des falsifications réalistes couvrant les cinq catégories principales, évitant les artefacts visuels courants.
Dataset TDoc-2.8M : Création et publication d'un dataset massif contenant environ 2,8 millions d'images de documents falsifiés, générées à partir de sources variées (CC-MAIN, IIT-CDIP, etc.).
Preuve de supériorité : Démonstration que l'entraînement sur ces données synthétiques de haute qualité améliore significativement les performances sur des benchmarks réels, surpassant les méthodes de génération précédentes.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode en pré-entraînant cinq modèles d'état de l'art (DTD, ASC-Former, CAT-Net, PSCC-Net, FFDN) sur des données générées par leur pipeline, par rapport à des données générées par des méthodes existantes ([25] et [6]).

Performance en Zero-Shot : Sur des ensembles de données réels et humains (RTM, FindItAgain, FindIt), les modèles entraînés avec la méthode proposée montrent des améliorations constantes et significatives.
- Exemple notable : Le modèle FFDN voit son score F1 au niveau pixel sur le dataset FindItAgain passer de 11,3 à 25,5 (+125,7 % de gain relatif) par rapport à la méthode de référence [25].
- Les gains sont particulièrement marqués sur les datasets les plus réalistes (RTM, FindItAgain), prouvant que le modèle apprend des caractéristiques robustes plutôt que des artefacts.
Ablation Study : L'ablation des réseaux $F_\theta$ ou $G_\theta$ entraîne une baisse de performance, confirmant que la similarité visuelle ET la qualité géométrique sont toutes deux indispensables.
Généralisation : Les modèles généralisent bien aux falsifications générées par IA (FLUX-Text, AnyText) sans ajustement supplémentaire.
Efficacité : Le pipeline est rapide (environ 0,15 seconde par région falsifiée), les deux réseaux auxiliaires ne représentant que ~19 % du temps de traitement total.

5. Signification et Impact

Cet article adresse un problème fondamental en forensique numérique : le manque de données d'entraînement réalistes pour la détection de falsifications de documents.

Changement de paradigme : Au lieu de se fier à des règles heuristiques simples, l'approche utilise l'apprentissage profond (contrastif) pour guider la génération de données, imitant la stratégie humaine de sélection de zones visuellement cohérentes.
Amélioration de la robustesse : En éliminant les artefacts "faciles" des données synthétiques, les modèles sont forcés d'apprendre des signaux de falsification plus subtils et généralisables.
Ressource Open Source : La publication du code, des poids pré-entraînés et du dataset TDoc-2.8M sur GitHub et Hugging Face offre une base solide pour la recherche future dans la détection de falsifications de documents.

En résumé, cette travail démontre que la qualité des données synthétiques est aussi critique que la qualité de l'architecture du modèle pour atteindre des performances élevées sur des tâches de détection de falsification complexes.