Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un detective digitale a riconoscere un documento falso. Il problema è che, per allenare questo detective, servono migliaia di esempi di documenti falsificati. Ma creare falsi realistici a mano è lento, costoso e noioso.

Fino a poco tempo fa, i ricercatori cercavano di creare questi falsi usando delle "ricette" rigide (come un robot che incolla pezzi di testo a caso). Il risultato? Falsi così evidenti e pieni di errori che sembravano fatti da un bambino di cinque anni. Il detective imparava a riconoscere solo questi errori grossolani, ma falliva miseramente quando si trovava davanti a un falso fatto da un vero criminale esperto.

Questo paper presenta una soluzione geniale: un "fabbricante di falsi" intelligente che impara a creare documenti manipolati così perfetti da sembrare veri, usando due "assistenti" digitali.

Ecco come funziona, spiegato con un'analogia semplice:

1. Il Problema: Il Falso "Da Barattolo"

Pensa a un falsario che deve copiare una firma o un testo da un documento e spostarlo in un altro. Se usa un metodo vecchio (le "ricette" di prima), potrebbe:

Tagliare la firma a metà (come se avesse tagliato il dito con le forbici).
Incollare un testo con un font diverso o un colore stonato (come se avesse incollato un adesivo giallo su una pagina blu).
Lasciare bordi sgranati.

Il detective digitale, allenato su questi errori, impara a dire: "Ah, questo è falso perché il colore è strano!". Ma se il criminale reale fa un lavoro perfetto, il detective non se ne accorge.

2. La Soluzione: Due Assistenti Magici

Gli autori hanno creato un sistema che usa due reti neurali (due "cervelli" digitali) per guidare la creazione dei falsi.

L'Assistente 1: Il "Cercatore di Gemelli" (Contrastive Learning)

Immagina di dover rubare una frase da una pagina e incollarne un'altra. Il tuo obiettivo è che nessuno noti il passaggio.

Cosa fa: Questo assistente guarda due pezzi di testo e chiede: "Sembra che questi due provengano dalla stessa pagina?".
Come impara: Non usa regole rigide. Guarda milioni di documenti e impara a riconoscere i dettagli sottili: la stessa sfumatura di bianco, lo stesso tipo di sfocatura, la stessa "vibrazione" del font.
L'analogia: È come un sarto che deve cucire un pezzo di stoffa su un vestito. Non guarda solo il colore, ma controlla la trama, il peso e la lucentezza del tessuto. Se il pezzo non corrisponde perfettamente, il sarto (l'assistente) lo scarta e ne cerca un altro.

L'Assistente 2: Il "Controllore dei Bordi" (Bounding Box Quality)

Immagina di dover ritagliare una foto. Se tagli troppo, tagli via il naso della persona; se tagli troppo poco, lasci un pezzo di sfondo indesiderato.

Cosa fa: Questo assistente controlla il "ritaglio" prima che venga incollato. Si assicura che il rettangolo che circonda il testo tagli esattamente intorno alle lettere, senza mangiarne i bordi o includere parole vicine.
L'analogia: È come un fotografo che controlla l'inquadratura. Se il soggetto è tagliato male, scarta la foto. Questo evita quei "bordi frastagliati" che tradiscono subito un falso.

3. Il Processo: La Catena di Montaggio Perfetta

Ora, immagina una catena di montaggio automatizzata:

Il sistema prende un documento originale.
L'Assistente 1 cerca un pezzo di testo che sia visivamente identico a quello che vuole copiare (stesso font, stessa luce, stesso inchiostro).
L'Assistente 2 controlla che il ritaglio sia perfetto, senza tagliare le lettere.
Se tutto è perfetto, il pezzo viene spostato, cancellato o modificato nel documento target.
Il risultato è un documento manipolato che sembra fatto da un umano esperto, non da un robot.

Perché è importante?

Creando 2,8 milioni di questi falsi perfetti (un numero enorme!), gli autori hanno addestrato i detective digitali su un "campo di addestramento" molto più realistico.

Il risultato?

I modelli addestrati con questo metodo sono molto più bravi a trovare i falsi reali.
Non si confondono più con i trucchi semplici.
Funzionano meglio su documenti bancari, contratti e fatture reali, dove la sicurezza è fondamentale.

In sintesi: Hanno smesso di insegnare ai detective a riconoscere i falsi "da barattolo" (facili e brutti) e hanno iniziato a insegnar loro a riconoscere i falsi "da museo" (perfetti e subdoli), creando un esercito di falsi perfetti per allenarli. È come passare dall'allenarsi contro un pupazzo di paglia all'allenarsi contro un campione del mondo di pugilato: quando arriverà il vero criminale, il detective sarà pronto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La rilevazione di testi manomessi nelle immagini di documenti è un compito critico a causa della diffusione di informazioni sensibili, ma è ostacolato dalla scarsità di dati.

Limitazioni attuali: I dataset esistenti sono spesso piccoli, costosi da creare manualmente o generati tramite pipeline basate su regole.
Qualità dei dati sintetici: I metodi precedenti (es. DocTamper) tendono a produrre manomissioni di bassa qualità con artefatti visivi evidenti (es. font non allineati, tagli sui caratteri, colori incoerenti).
Conseguenza: I modelli addestrati su questi dati "imparano scorciatoie" (shortcut learning) basate su artefatti facili da rilevare, fallendo nel generalizzare su manipolazioni reali, che sono spesso di alta qualità e difficili da distinguere.

2. Metodologia Proposta

Gli autori propongono un framework innovativo per generare documenti manomessi di alta qualità e diversificati, guidato da due reti neurali ausiliarie addestrate specificamente per valutare la coerenza visiva e la qualità del ritaglio.

A. Due Reti Ausiliarie

Rete di Similarità dei Ritagli ( $F_\theta$ ):
- Obiettivo: Confrontare due ritagli di testo (o un ritaglio di testo e uno vuoto) per valutarne la similarità visiva (font, colore, sfondo, allineamento, luminosità, sfocatura).
- Tecnica: Addestrata tramite Contrastive Learning.
- Coppie Positive: Ritagli adiacenti sulla stessa riga di un documento (con stesse dimensioni e numero di caratteri) sono trattati come coppie positive, poiché condividono proprietà visive naturali.
- Coppie Negative: Ritagli con lo stesso numero di caratteri ma distanti verticalmente o con aspect ratio diversi. Vengono anche generate "negative hard" applicando trasformazioni visive casuali agli anchor.
- Architettura: Una rete leggera (ConvNeXt-style) con due testine di embedding disaccoppiate: una per il testo (foreground) e una per lo sfondo (background).
Rete di Valutazione della Qualità del Bounding Box ( $G_\theta$ ):
- Obiettivo: Determinare se un bounding box racchiude perfettamente i caratteri senza tagliarli o includere parti di caratteri adiacenti.
- Input: Il ritaglio stesso più le sue immediate vicinanze (strisce di contesto superiore, inferiore, sinistra e destra) per valutare il contesto.
- Output: Un punteggio di qualità (0-1). I ritagli con punteggio basso (che tagliano i caratteri) vengono scartati.
- Vantaggio: Sostituisce algoritmi lenti basati su stime del foreground (come Sauvola) con una rete neurale molto più veloce (10x-12x più rapida).

B. Pipeline di Generazione

Il processo di generazione segue un flusso multi-stadio che utilizza $F_\theta$ e $G_\theta$ per supportare cinque tipi di manomissione:

Preparazione: Estrazione di segmenti di testo e spazi vuoti dai documenti sorgente tramite OCR.
Filtraggio: I ritagli candidati vengono valutati da $G_\theta$ per garantire che siano ben definiti.
Selezione e Sostituzione:
- Per Copy-move, Splicing e Coverage: Si cercano candidati nel database che abbiano dimensioni simili e la massima similarità visiva (calcolata da $F_\theta$ ) rispetto alla regione target.
- Per Inserimento: Si renderizza nuovo testo con font e colori variati, selezionando la combinazione che massimizza la similarità con il contesto circostante tramite $F_\theta$ .
- Per Inpainting: Si rimuove il testo utilizzando tecniche di riempimento consapevoli dello sfondo.
Output: Un dataset di circa 2.8 milioni di immagini manomesse (TDoc-2.8M) con maschere pixel-level.

3. Contributi Chiave

Nuovo Framework di Generazione: Introduzione di un pipeline guidata da due reti ausiliarie ( $F_\theta$ e $G_\theta$ ) per produrre manomissioni realistiche e prive di artefatti evidenti.
Apprendimento Contrastivo per Documenti: Adattamento del contrastive learning per definire coppie positive e negative in modo intelligente, sfruttando la struttura delle righe di testo.
Dataset TDoc-2.8M: Rilascio pubblico di un dataset su larga scala (2.8M immagini) e dei relativi script di addestramento.
Protocollo di Valutazione Rigoroso: Adozione del protocollo "Syn2Real", dove modelli diversi vengono addestrati su dataset generati con metodi diversi (stessi documenti sorgente, stessa configurazione di training) per isolare l'impatto della qualità dei dati.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su cinque modelli di stato dell'arte (PSCC-Net, CAT-Net, DTD, ASC-Former, FFDN) e valutati su dataset reali e umani (RTM, FindItAgain, FindIt).

Miglioramento delle Prestazioni: I modelli addestrati sui dati generati dalla pipeline proposta hanno mostrato miglioramenti consistenti rispetto a quelli addestrati su dati generati da metodi precedenti (DocTamper o pipeline di [6]).
- Esempio: Su FindItAgain, FFDN ha visto un aumento del 125.7% nel punteggio F1 a livello di pixel rispetto alla baseline.
- In media, il punteggio F1 a livello di pixel è passato da 9.4 (DocTamper) a 15.7 (Metodo proposto).
Generalizzazione: I modelli mantengono prestazioni superiori anche dopo il fine-tuning su dati reali e mostrano una buona capacità di generalizzare verso manomissioni generate da IA (es. FLUX-Text, AnyText), nonostante non siano stati esposti a tali dati durante il pre-training.
Ablation Study: Rimuovere $F_\theta$ o $G_\theta$ dalla pipeline porta a un calo significativo delle prestazioni, dimostrando che sia la similarità visiva che la qualità geometrica del ritaglio sono essenziali.

5. Significato e Impatto

Questo lavoro risolve il collo di bottiglia della scarsità di dati di alta qualità nel campo della forensics documentale.

Robustezza: Dimostra che la qualità dei dati sintetici è più importante della semplice quantità; dati sintetici realistici permettono ai modelli di apprendere caratteristiche robuste invece di affidarsi ad artefatti facili.
Riproducibilità: La disponibilità del codice, dei pesi pre-addestrati e del dataset TDoc-2.8M facilita la ricerca futura.
Efficienza: La pipeline è ottimizzata per essere veloce (circa 0.15 secondi per regione manomessa su GPU moderna), rendendo scalabile la generazione di dataset su larga scala.

In sintesi, l'approccio proposto sposta il paradigma dalla generazione di dati basata su regole rigide a una generazione guidata dall'apprendimento, producendo dati sintetici che si avvicinano molto alla complessità delle manipolazioni reali, migliorando drasticamente l'affidabilità dei sistemi di rilevamento delle frodi documentali.