Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom "nep-gegevens" voor fraudeopsporing vaak mislukken

Stel je voor dat je een fotograaf bent die een heel gedetailleerd portret van een stad tekent. Je hebt de perfecte kleuren voor de huizen, de juiste vorm van de straten en de exacte verdeling van de mensen in de parken. Maar als je kijkt naar hoe de mensen zich gedragen, zie je iets vreemds: ze bewegen als robots. Ze lopen niet in groepjes, ze rennen niet plotseling weg als er gevaar is, en ze delen geen paraplu's met elkaar.

Dit is precies wat deze paper laat zien over synthetische data (kunstmatig gegenereerde gegevens) die wordt gebruikt om fraude op te sporen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Statistische" Foto vs. Het "Levende" Gedrag

Tot nu toe keken experts alleen naar twee dingen om te zien of nep-gegevens goed zijn:

De Statistieken (De Foto): Zien de aantallen en percentages er hetzelfde uit als in het echt? (Bijvoorbeeld: zijn er evenveel kleine en grote aankopen?)
De Test (De Schoolproef): Werkt een computerprogramma dat op deze nep-gegevens is getraind, ook goed op echte gegevens?

De auteurs zeggen: "Nee, dat is niet genoeg!"
Het is alsof je een spookhuis bouwt dat er perfect uitziet van buiten, maar als je erin loopt, bewegen de geesten niet op de juiste manier. In de echte wereld is fraude een gedragsprobleem. Oplichters doen dingen die normaal mensen niet doen:

Ze doen 10 transacties in 1 minuut (een bom van activiteit).
Ze gebruiken dezelfde computer of IP-adres voor tientallen verschillende accounts (een netwerk van verbindingen).
Ze veranderen hun gedrag heel snel.

De huidige nep-gegevens generatoren (de "robots") zijn heel goed in het kopiëren van de cijfers, maar ze vergeten de tijd en de relaties tussen die cijfers. Ze maken een statische foto van een dynamisch leven.

2. De Vier "Gedrags-Valstrikken" (P1 t/m P4)

De onderzoekers hebben vier specifieke manieren bedacht om te zien of de nep-gegevens het gedrag van oplichters nabootsen. Denk hieraan als vier verschillende "leugendetectors":

P1: De Tijd-ritme (Het Hartslag-test):
- Echt gedrag: Als een oplichter een kaart test, doet hij snel achter elkaar 3 aankopen (tik-tik-tik) en dan is het stil.
- Nep-gedrag: De generator maakt willekeurige tijdstippen. Het ritme is als een ontregelde hartslag zonder pauzes. Het mist de "bliksemsnelle" bursts.
P2: De Explosie (De Bommenlegger):
- Echt gedrag: Oplichters werken vaak in korte, intense pieken (een "burst") en verdwijnen dan.
- Nep-gedrag: De nep-accounts doen dingen verspreid over de hele dag, alsof ze een hele dag in een kantoor zitten. Geen pieken, geen stiltes.
P3: Het Netwerk (De Grootmoeder-vertel):
- Echt gedrag: Oplichters delen apparaten. Stel je voor dat 50 verschillende mensen allemaal dezelfde oude laptop gebruiken. Dat is een groot rood vlaggetje.
- Nep-gedrag: De generator geeft elke nep-gebruiker een uniek, willekeurig laptop-nummer. Er is geen "samenwerking" of "delen" te zien. Het netwerk is kapot.
P4: De Snelheidsregels (De Politiecontrole):
- Echt gedrag: Banken hebben regels: "Meer dan 3 aankopen per uur? Blokkeren!"
- Nep-gedrag: Omdat de tijdstippen willekeurig zijn, triggeren deze regels bijna nooit in de nep-data. Als je je alarm op basis van deze nep-data instelt, zal het in de echte wereld niet afgaan wanneer het moet.

3. Het Experiment: De "Grote Test"

De onderzoekers hebben vier populaire "nep-gegevens-machines" (CTGAN, TVAE, GaussianCopula, TabularARGN) getest op echte fraude-data van Amazon en creditcards.

Het resultaat?
Alle machines faalden dramatisch.

Ze waren soms 24 tot 100 keer slechter dan het echte gedrag.
Zelfs de "beste" machine (TabularARGN) deed het nog 17 keer slechter dan het echte gedrag op het punt van netwerken.
De verrassing: De machine die het beste deed op de "Schoolproef" (TSTR AUROC), was vaak juist de slechtste op het nabootsen van het echte gedrag. Je kunt dus niet vertrouwen op de oude testresultaten!

4. Waarom lukt het niet? (De "Losse Paden" Theorie)

De paper geeft een wiskundig bewijs waarom dit zo moeilijk is.
Stel je voor dat je een reusachtige pot met losse puzzelstukken hebt. Je mag er willekeurig stukken uit halen om een plaatje te maken.

De huidige machines halen stukjes uit de pot en leggen ze neer. Ze weten niet dat stukje A en stukje B bij elkaar horen.
Om een fraude-netwerk (P3) te maken, moet je weten dat "Gebruiker A" en "Gebruiker B" dezelfde laptop gebruiken. Maar als je stukjes willekeurig uit de pot haalt, krijg je nooit twee stukken die perfect op elkaar aansluiten.
Om een tijdsritme (P1) te maken, moet je weten dat als er nu een aankoop is, de volgende binnen 10 seconden komt. Maar de machines maken elke aankoop als een losstaand momentje.

Conclusie: Zolang de machines elke rij gegevens los van elkaar maken (zonder te onthouden wat ze net hebben gemaakt), kunnen ze het gedrag van oplichters nooit perfect nabootsen. Het is als proberen een dans te leren door alleen naar losse foto's van de dansers te kijken, zonder de muziek of de beweging te zien.

5. Wat betekent dit voor de praktijk?

Pas op: Banken en bedrijven mogen deze nep-gegevens niet zomaar gebruiken om hun beveiligingstest te doen. Als ze dat doen, bouwen ze een alarm dat te weinig afgaat.
Geen "Drop-in" oplossing: Je kunt deze data niet zomaar vervangen door echte data.
De toekomst: We hebben nieuwe, slimme machines nodig die niet alleen losse rijen maken, maar hele "verhalen" of "netwerken" tegelijk genereren. Ze moeten onthouden wat ze net hebben gedaan, net zoals een mens dat doet.

Kortom: De huidige technologie is goed om cijfers te kopiëren, maar slecht om het gedrag van mensen na te bootsen. Voor het opsporen van fraude is het gedrag echter alles. Zonder dat, is de nep-data nutteloos.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Financiële fraudeopsporing is fundamenteel een gedragsprobleem. Operationele systemen detecteren fraude niet alleen op basis van statische kenmerken (zoals transactiebedragen), maar vooral op gedragspatronen:

Temporele bursts: Snelle opeenvolging van transacties binnen korte tijd (bijv. 3 transacties in 60 seconden).
Snelheidsregels (Velocity rules): Schendingen van drempels zoals "meer dan 3 transacties per uur".
Gedeelde infrastructuur: Groepen accounts die dezelfde apparaten, IP-adressen of betaalmethoden delen (fraudekringen).

Wanneer echte transactiedata niet gedeeld kan worden vanwege privacywetgeving (zoals GDPR), wordt synthetische data vaak als vervanging gebruikt. De huidige evaluatiestandaard voor synthetische tabulaire data richt zich op twee dimensies:

Statistische fideliteit: Stemmen marginaal verdelingen en correlaties overeen met de echte data?
Downstream utility (TSTR): Werkt een model getraind op synthetische data goed op echte data (AUROC-score)?

Het kernprobleem: Deze bestaande metrics testen niet of de synthetische data de specifieke gedragspatronen behoudt die nodig zijn voor fraudeopsporing. Een generator kan perfecte statistische verdelingen hebben, maar toch de interne structuur van een fraude-burst volledig vernietigen. Dit leidt tot miscalibratie van detectiesystemen in de praktijk.

Methodologie

De auteur introduceert een nieuwe evaluatiedimensie: Behavioral Fidelity (Gedragsfideliteit).

1. Taxonomie van Gedragspatronen (P1–P4)

Er worden vier formeel gedefinieerde patronen vastgesteld, gebaseerd op de fraude-detectieliteratuur:

P1: Inter-Event Time (IET) Distributie: De tijdsafstanden tussen opeenvolgende transacties van een entiteit. Fraude vertoont een "burst"-patroon met korte, opeenvolgende intervallen.
P2: Burst Structuur en Actieve Levensduur: De dichtheid van transacties in korte tijdvensters en de totale actieve levensduur van een account (fraudeurs zijn vaak kort actief).
P3: Gedeelde Infrastructuur Graph Motieven: De structuur van een bipartiet grafiek (gebruikers vs. gedeelde attributen zoals device-ID's). Echte fraudekringen tonen een "power-law" fan-out (één apparaat gebruikt door vele gebruikers), terwijl synthetische data vaak willekeurige toewijzingen heeft.
P4: Snelheidsregel Trigger Rates: De frequentie waarmee specifieke operationele regels (bijv. "meer dan 3 transacties/uur") worden geactiveerd.

2. Evaluatie Framework: Degradatie Ratio (DR)

Om deze patronen kwantitatief te vergelijken, wordt een Degradatie Ratio gebruikt.

Nulwaarde (Noise Floor): De variabiliteit tussen twee willekeurige 50/50 splits van de echte data. Dit is de ondergrens van 1.0.
Berekening: $DR = \frac{\text{Fout tussen Echte en Synthetische Data}}{\text{Fout tussen twee splits van Echte Data}}$ .
Interpretatie: Een score van 1.0 betekent dat de synthetische data net zo goed is als een willekeurige split van de echte data. Een score van $k$ betekent dat de afwijking $k$ keer erger is dan de natuurlijke variatie in de echte data.

3. Experimenteel Opzet

Datasets:
- IEEE-CIS Fraud Detection (Kaggle 2019): Voor P1, P2 en P4 (temporele patronen).
- Amazon Fraud Dataset (2020): Voor P3 (grafische motieven/gedeelde apparaten).
Generators: Vier dominante modellen werden getest:
- CTGAN (Conditional GAN)
- TVAE (Conditional VAE)
- GaussianCopula (Parametrisch model)
- TabularARGN (Autoregressief model van MOSTLY AI)
Protocol: Een drie-laags evaluatie: Statistische Fideliteit (Laag 1) + Downstream Utility (Laag 2) + Gedragsfideliteit (Laag 3).

Belangrijkste Bijdragen

Formele Taxonomie: De eerste gestandaardiseerde definitie van meetbare fraude-gedragspatronen (P1–P4) voor synthetische data.
Degradatie Ratio Framework: Een schaal die resultaten interpreteerbaar maakt door ze te relateren aan de natuurlijke ruis van de echte data, ongeacht de schaal van de metric.
Empirisch Bewijs: Een benchmark die aantoont dat huidige state-of-the-art generators catastrofale fouten maken in het behoud van gedragspatronen, zelfs als ze goede AUROC-scores behalen.
Theoretische Onmogelijkheid: Bewijzen (Propositie 1 en 2) dat "row-independent" generators (die rijen onafhankelijk van elkaar genereren) structureel onbekwaam zijn om cross-entiteit patronen (P3) en positieve intra-entiteit autocorrelatie (P1/P2) te reproduceren.

Resultaten

De resultaten tonen een schokkend gat tussen traditionele metrics en gedragsfideliteit:

Algemene Prestaties: Alle vier de generators presteerden catastrofaal slecht op gedragsfideliteit.
- IEEE-CIS (P1, P2, P4): De gecombineerde degradatie ratios varieerden van 24.4x (TVAE, na correctie) tot 39.0x (GaussianCopula). Dit betekent dat de gedragsafwijking 24 tot 39 keer erger is dan de natuurlijke variatie in de echte data.
- Amazon FDB (P3): Row-independent generators scoorden 81.6x tot 99.7x.
Paradoxale Scores:
- CTGAN had de op één na beste TSTR AUROC (0.798), maar een van de slechtste gedragscores (99.7x voor P3).
- GaussianCopula had de laagste TSTR AUROC (0.523), maar een betere P3-score dan CTGAN.
- Conclusie: Er is geen correlatie tussen traditionele metrics (Laag 1 & 2) en gedragsfideliteit (Laag 3).
Architecturale Nuances:
- TVAE: Toonde een "minority-class collapse" (fraude-ratio daalde van 3.5% naar 0.03% bij onvoorwaardelijke sampling). Na correctie via conditionele sampling was TVAE de beste (24.4x), vooral omdat het de temporele autocorrelatie beter behield dan de anderen (5.9x).
- TabularARGN: Dit autoregressieve model presteerde het beste op P3 (17.2x) omdat het kenmerken binnen een rij conditioneert op eerder gegenereerde kenmerken. Dit helpt bij het reproduceren van gedeelde attributen. Echter, het verbeterde de temporele patronen (P1/P2) niet significant ten opzichte van andere modellen.
Theoretische Beperkingen:
- Propositie 1: Row-independent generators kunnen geen "heavy-tailed" fan-out distributies (zoals bij fraudekringen) genereren; ze genereren per definitie een Poisson-verdeling met fan-out ≈ 1.
- Propositie 2: Zelfs met externe toewijzing van entiteiten, zullen de tijdsintervallen (IET) binnen een synthetische entiteit geen positieve autocorrelatie vertonen (ze zijn onafhankelijk getrokken), waardoor het "burst"-vingerafdruk van fraude verloren gaat.

Betekenis en Implicaties

Operational Risk: Synthetische data van huidige generatoren is niet geschikt als vervanging voor echte data in workflows die afhankelijk zijn van temporele, snelheids- of grafische patronen. Het gebruik ervan leidt tot miscalibratie van snelheidsregels en het falen van grafische ringdetectie.
Nieuwe Evaluatiestandaard: De TSTR AUROC is onvoldoende. Organisaties moeten "Layer 3" (Behavioral Fidelity) evaluaties verplicht stellen voordat ze synthetische data in productie zetten voor fraudebestrijding.
Toekomstige Richting: Om gedragsfideliteit te verbeteren, moeten generatieve modellen de "row-independence" verlaten. Dit vereist:
- Entiteitsbewuste sequentiële generatie (voor temporele patronen).
- Cross-entiteit relationele modellering (voor grafische motieven).
- Directe optimalisatie op snelheidsregel-trigger rates.
Algemene Toepasbaarheid: Hoewel de studie zich richt op fraude, zijn deze bevindingen relevant voor elk domein met sequentiële entiteitsdata, zoals gezondheidszorg (patiëntbezoekgeschiedenis) en IoT-beveiliging (netwerkverkeerspatronen).

Conclusie: Het paper levert het bewijs dat de huidige generatie van synthetische tabulaire data-tools fundamenteel tekortschiet in het behoud van de complexe, gedragsgerichte signalen die essentieel zijn voor moderne fraudeopsporing. Er is een fundamentele architecturale verschuiving nodig om deze beperkingen te overwinnen.