Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un poliziotto virtuale a riconoscere i ladri. Per farlo, hai bisogno di vedere migliaia di esempi di transazioni reali: come si muovono, quanto velocemente spendono, con chi condividono il conto. Ma c'è un problema: i dati reali contengono informazioni private (nomi, indirizzi, numeri di carta) che non puoi mostrare a nessuno per motivi di privacy.

La soluzione sembra ovvia: crea dei dati finti (sintetici) che sembrino reali ma che non appartengano a nessuno. È come creare un "universo parallelo" di transazioni per addestrare il poliziotto.

Questo studio, però, ha una notizia sconvolgente: i generatori di dati finti attuali sono dei pessimi imitatori quando si tratta di comportamento.

Ecco la spiegazione semplice, usando delle analogie.

1. Il Problema: L'Imitatore che non capisce la "Coreografia"

I ricercatori hanno testato quattro programmi famosi (CTGAN, TVAE, GaussianCopula, TabularARGN) che servono a creare questi dati finti.

Fino ad oggi, si diceva che un generatore fosse "bravo" se:

La statistica era giusta: Se nel mondo reale il 3% delle transazioni è frode, anche nel mondo finto deve esserlo il 3%.
Il test funzionava: Se addestri un modello sui dati finti e poi lo fai testare su dati veri, funziona bene.

Ma questo studio dice: "Basta, non basta!"

Immagina di voler insegnare a un attore a recitare la parte di un ladro che ruba in 10 secondi.

Il generatore attuale guarda il copione e dice: "Ok, il ladro ha rubato 100 euro. Lo scrivo nel mio libro."
Ma non capisce come lo ha rubato. Non capisce che il ladro ha fatto 5 transazioni in 1 secondo, poi è sparito.

I dati finti prodotti oggi sono come una fotografia statica di una scena d'azione. Hanno i colori giusti e gli oggetti giusti, ma se provi a muovere la scena, tutto crolla. Non riescono a ricreare il movimento e la velocità tipici dei ladri.

2. Le 4 "Impronte Digitali" che i Generatori Distruggono

Gli autori hanno definito 4 modi in cui i ladri si comportano (le "impronte digitali" comportamentali) e hanno visto che i generatori le cancellano tutte:

P1 - Il Tempo tra i Batti (Inter-Event Time):
- Realtà: Un ladro fa una transazione, poi subito dopo un'altra, e subito dopo un'altra. È una "tempesta" di azioni ravvicinate.
- Finto: Il generatore crea le transazioni come se fossero persone che aspettano il bus a caso. C'è un'azione, poi un'ora di pausa, poi un'altra. La "tempesta" scompare.
- Analogia: È come se un generatore di musica scrivesse una canzone dove ogni nota è distanziata da 10 minuti di silenzio. Non è più una canzone, è solo rumore.
P2 - La Struttura a "Burst" (Esplosione):
- Realtà: I ladri lavorano in esplosioni brevi e intense (burst).
- Finto: I dati finti distribuiscono le azioni in modo uniforme e noioso. Non c'è l'urgenza del ladro.
P3 - La Rete Condivisa (Graph Motifs):
- Realtà: Spesso gruppi di ladri usano lo stesso telefono, lo stesso indirizzo IP o lo stesso computer. È come se 50 persone diverse usassero lo stesso cappello rosso.
- Finto: I generatori attuali assegnano un "cappello" diverso a ogni persona, perché non capiscono che le persone possono condividere oggetti. Nel mondo finto, ogni ladro ha il suo telefono unico. La rete criminale scompare.
P4 - Le Regole di Velocità:
- Realtà: Le banche hanno regole tipo: "Se fai più di 3 acquisti in un'ora, blocca la carta".
- Finto: Poiché i dati finti non hanno le "esplosioni" di velocità, queste regole non scattano mai. Se addestri il poliziotto su dati finti, imparerà che le regole di velocità non servono a nulla. Quando lo manderai nel mondo reale, sarà cieco.

3. Il Risultato: Un Disastro (ma con una piccola speranza)

I ricercatori hanno calcolato quanto i dati finti siano "peggiori" di quelli reali.

Il punteggio perfetto è 1. (Significa: indistinguibile dalla realtà).
I generatori testati hanno ottenuto punteggi tra 24 e 100.
- Significa che i dati finti sono 24 o 100 volte più sbagliati rispetto a una semplice variazione casuale dei dati reali.
- È come se un traduttore dicesse: "Ho tradotto il libro, ma ho sbagliato ogni parola 50 volte".

C'è un'eccezione?
C'è un generatore chiamato TabularARGN che è un po' meglio (punteggio 17 invece di 100) quando si tratta di ricreare le "reti condivise" (P3). È come se avesse un piccolo cervello in più che capisce che certi oggetti si condividono. Ma anche lui fallisce miseramente nel capire la velocità e il tempo (P1 e P2).

4. Perché succede? (La Teoria della "Fotocopia")

Il motivo principale è che questi programmi funzionano riga per riga.
Immagina di dover ricreare una conversazione tra due amici.

Il generatore attuale guarda la prima riga: "Mario dice ciao". La scrive.
Guarda la seconda riga: "Luigi risponde". La scrive.
Ma non sa che Luigi sta rispondendo a Mario! Ogni riga è generata in isolamento, come se fosse un'isola.

Per capire il comportamento (la velocità, le reti), il generatore dovrebbe guardare tutta la conversazione insieme, non riga per riga. Ma i programmi attuali non sono fatti così. È come se cercassi di ricostruire un film guardando solo i singoli fotogrammi staccati l'uno dall'altro: perdi la trama.

Conclusione: Cosa dobbiamo fare?

Questo studio è un avvertimento importante.
Se le banche o le aziende usano questi dati finti per addestrare i loro sistemi anti-frode, stanno addestrando i loro poliziotti su un mondo di fantasia. Quando arriveranno i veri ladri, i poliziotti non li riconosceranno perché i "movimenti" dei ladri nel mondo finto non esistono.

Il consiglio pratico:
Non usare i dati finti attuali per addestrare sistemi che devono rilevare velocità, tempi rapidi o reti di contatti. Servono nuovi programmi capaci di capire la "coreografia" del comportamento, non solo i singoli passi.

In sintesi: I dati finti sono belli da vedere, ma per la caccia al ladro, sono ancora troppo "finti".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'identificazione delle frodi finanziarie è intrinsecamente un problema comportamentale. I sistemi di rilevamento in produzione non si basano solo sulle distribuzioni marginali delle transazioni, ma su segnali comportamentali complessi come:

Burst temporali: Sequenze di transazioni ravvicinate (es. 3 transazioni in 60 secondi).
Violazioni delle regole di velocità (Velocity Rules): Soglie temporali o di importo (es. importo > 10x la mediana a 30 giorni).
Condivisione di infrastrutture: Gruppi di account che condividono ID dispositivo o indirizzi IP (motivi grafici di frode coordinata).

Attualmente, quando i dati reali non possono essere condivisi per motivi di privacy (es. GDPR), si utilizzano dati sintetici generati da modelli di intelligenza artificiale. Tuttavia, la premessa che questi generatori preservino la struttura necessaria per il rilevamento delle frodi è non testata e, come dimostra l'autore, ampiamente violata.

Le metriche di valutazione esistenti si concentrano su:

Fedeltà statistica: Corrispondenza di distribuzioni marginali e correlazioni a coppie.
Utilità a valle (Downstream Utility): Prestazioni di un classificatore addestrato su dati sintetici e testato su dati reali (protocollo TSTR).

Il paper dimostra che un generatore può eccellere in queste due metriche (es. alto AUROC) mentre distrugge completamente i segnali comportamentali critici per la frode, rendendo i dati sintetici inutilizzabili per la calibrazione delle regole operative.

2. Metodologia e Framework di Valutazione

L'autore introduce una nuova dimensione di valutazione chiamata Fedeltà Comportamentale (Behavioral Fidelity), basata su una tassonomia di quattro pattern di frode (P1-P4) e una nuova metrica di valutazione.

Tassonomia dei Pattern Comportamentali

P1 - Distribuzione del Tempo Inter-Evento (IET): Analizza i tempi tra le transazioni successive dello stesso entità. Le frodi mostrano "burst" con intervalli brevi e correlati (autocorrelazione positiva), mentre i dati sintetici tendono a distruggere questa struttura.
P2 - Struttura dei Burst e Durata Attiva: Misura la durata delle finestre attive e la densità delle transazioni. I frodatori hanno vite attive brevi e burst densi; i dati sintetici spesso producono strutture più diffuse.
P3 - Motivi Grafici di Infrastruttura Condivisa: Analizza la struttura bipartita tra entità (utenti) e attributi condivisi (dispositivi, IP). Le frodi reali mostrano "fan-out" alti (molti utenti sullo stesso dispositivo), mentre i generatori indipendenti tendono ad assegnare dispositivi unici a ogni riga, distruggendo i "ring" di frode.
P4 - Tassi di Attivazione delle Regole di Velocità: Misura quanto frequentemente le regole operative standard (es. "più di 3 transazioni in un'ora") vengono attivate nei dati sintetici rispetto a quelli reali.

Metrica: Degradation Ratio (DR)

Per rendere confrontabili metriche eterogenee (es. secondi, correlazioni, tassi), l'autore definisce il Degradation Ratio:
$DR(G, m) = \frac{\text{metrica}(D_{real}, D_{syn})}{\text{metrica}(D_{real,A}, D_{real,B})}$
Dove il denominatore è il "rumore di fondo" (noise floor) calcolato dividendo i dati reali in due metà casuali.

DR = 1.0: Il generatore è indistinguibile dalla varianza di campionamento dei dati reali.
DR = k: Il generatore è $k$ volte peggiore della varianza naturale dei dati reali.

Protocollo di Valutazione a Tre Livelli

Livello 1: Fedeltà Statistica (distribuzioni e correlazioni).
Livello 2: Utilità a valle (AUROC TSTR).
Livello 3: Fedeltà Comportamentale (DR per P1-P4).

3. Contributi Chiave

Tassonomia Formale: Definizione rigorosa e misurabile dei pattern P1-P4 basata sulla letteratura esistente.
Framework di Valutazione: Introduzione del Degradation Ratio e del protocollo a tre livelli che espone il divario tra le metriche attuali e la realtà operativa.
Benchmark Empirico: Valutazione di quattro generatori principali (CTGAN, TVAE, GaussianCopula, TabularARGN) su due dataset pubblici (IEEE-CIS e Amazon FDB).
Dimostrazione Teorica: Dimostrazione matematica che i generatori indipendenti per riga (row-independent) sono strutturalmente incapaci di riprodurre i motivi grafici (P3) e l'autocorrelazione temporale positiva (P1/P2), indipendentemente dalla dimensione dei dati o dall'architettura.

4. Risultati Sperimentali

I risultati mostrano un fallimento catastrofico di tutti i generatori testati rispetto alla fedeltà comportamentale, anche quando ottengono buoni punteggi di AUROC.

Dataset IEEE-CIS (P1, P2, P4):
- CTGAN: DR Composito 32.2×. Ottimo AUROC (0.798), ma distrugge l'autocorrelazione temporale (40.5×).
- TVAE: DR Composito 24.4× (il migliore, ma solo dopo aver corretto un fallimento di campionamento). Mostra una sorprendente capacità di preservare l'autocorrelazione temporale (5.9×) grazie allo spazio latente continuo, ma fallisce comunque rispetto al rumore di fondo (1.0).
- GaussianCopula: DR Composito 39.0×. Il peggior punteggio per l'autocorrelazione (75.1×).
- TabularARGN: DR Composito 36.3×. Non offre vantaggi significativi sui pattern temporali rispetto agli altri.
Dataset Amazon FDB (P3 - Motivi Grafici):
- Generatori Indipendenti (CTGAN, TVAE, GaussianCopula): DR tra 81.6× e 99.7×. Falliscono completamente nel riprodurre la condivisione di dispositivi (fan-out), assegnando dispositivi unici a ogni utente.
- TabularARGN: DR 17.2×. Grazie all'architettura autoregressiva (che condiziona le feature all'interno della stessa riga), riesce a catturare parzialmente la struttura di co-occorrenza, ottenendo un miglioramento di 5x rispetto agli altri, ma il risultato rimane comunque inaccettabile per l'uso operativo (17 volte peggio del rumore di fondo).
Fallimenti Specifici Documentati:
- TVAE: Crollo della classe minoritaria (fraud rate scende dal 3.5% allo 0.03%) se non si usa il campionamento condizionato.
- CTGAN: Fallimento di scalabilità su dataset ad alta dimensionalità (OOM) a causa della codifica one-hot di colonne categoriali nascoste.
- TabularARGN: La protezione dei valori (value protection) di default può distruggere i pattern grafici; va disabilitata per ottenere risultati migliori.

5. Significato e Implicazioni

Impossibilità Strutturale: Il paper prova che i generatori che producono righe in modo indipendente non possono mai preservare i pattern comportamentali che richiedono dipendenze tra righe (condivisione di dispositivi) o sequenziali (burst temporali). Questo è un limite teorico, non un difetto di addestramento.
Rischio Operativo: Utilizzare dati sintetici per calibrare le soglie delle regole di velocità o addestrare modelli di rilevamento di ring di frode porterà a modelli mal calibrati e a un aumento dei falsi negativi o positivi in produzione.
Generalizzabilità: Il problema non è limitato alle frodi finanziarie. Si applica a qualsiasi dominio con dati tabulari sequenziali per entità, come:
- Sanità: Storie cliniche e tempistiche tra visite/prescrizioni.
- E-commerce: Comportamenti di clickstream e condivisione di indirizzi di spedizione.
- Sicurezza di Rete: Pattern di traffico e burst di attacchi.
Raccomandazioni:
1. Non utilizzare dati sintetici attuali come sostituto diretto per la calibrazione di regole comportamentali.
2. Integrare la valutazione della "Fedeltà Comportamentale" (Livello 3) prima del deployment.
3. La ricerca futura deve spostarsi verso architetture che mantengano uno stato persistente a livello di entità (generazione sequenziale per entità) o modelli relazionali espliciti, piuttosto che migliorare i generatori di righe singole.

In conclusione, il paper stabilisce che l'attuale stato dell'arte nella generazione di dati tabulari è inadeguato per le applicazioni di rilevamento delle frodi che dipendono da segnali comportamentali dinamici, e fornisce un framework open-source per misurare e monitorare questo divario.