Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: „Sieht gut aus, ist aber nicht echt"

Stellen Sie sich vor, Sie sind ein Detektiv, der Betrüger aufspürt. Sie kennen die Tricks: Ein Dieb macht in einer Minute drei Zahlungen (ein „Burst"), nutzt denselben Laptop wie 50 andere verdächtige Konten (ein „Netzwerk") oder kauft Dinge in einer Geschwindigkeit, die unmöglich für einen normalen Menschen ist.

Um Ihre Detektive zu trainieren, brauchen Sie Daten. Aber echte Kreditkartendaten sind streng geheim (wegen des Datenschutzes). Also nutzen Forscher künstliche Daten – Computer-generierte Fake-Daten, die wie die echten aussehen sollen.

Die große Frage dieser Studie lautet: Können diese Computer-Generatoren wirklich das Verhalten der Betrüger nachbauen, oder täuschen sie uns nur?

Die Antwort der Forscher ist schockierend einfach: Die aktuellen Generatoren sind wie schlechte Schauspieler. Sie können die Kleidung und die Stimme perfekt imitieren (Statistik), aber sie vergessen die Art und Weise, wie die Person sich bewegt und spricht (Verhalten).

Die drei Ebenen der Prüfung

Die Forscher haben die künstlichen Daten auf drei Ebenen getestet:

Ebene 1: Der optische Check (Statistik)
- Analogie: Schaut man sich die Daten an, sehen die Durchschnittswerte (z. B. wie viel Geld durchschnittlich ausgegeben wird) fast genauso aus wie bei den echten Daten?
- Ergebnis: Ja! Die meisten Generatoren bestehen diesen Test. Sie sehen „statistisch" korrekt aus.
Ebene 2: Der Test im Einsatz (Nützlichkeit)
- Analogie: Wenn wir einen neuen Detektiv nur mit den Fake-Daten ausbilden, kann er dann echte Betrüger erkennen?
- Ergebnis: Ja, er ist ganz gut. Er erkennt viele Betrüger. Das ist aber trügerisch, weil er nur die offensichtlichen Muster sieht, nicht die feinen Details.
Ebene 3: Der Verhaltenstest (Die echte Falle)
- Analogie: Hier schauen wir uns das Timing und die Gruppierungen an.
  - Der „Burst": Ein echter Betrüfer macht 5 Käufe in 10 Sekunden. Ein Fake-Datensatz verteilt diese 5 Käufe oft über 5 Tage, weil der Computer die Reihenfolge nicht versteht.
  - Das Netzwerk: Ein echter Betrüger-Netzwerk nutzt 100 Konten, die alle denselben Computer nutzen. Der Fake-Datensatz gibt jedem Konto einen eigenen, zufälligen Computer.
  - Die Geschwindigkeit: Ein echter Betrüger verletzt Geschwindigkeitsregeln (z. B. „mehr als 3 Käufe pro Stunde"). Der Fake-Datensatz verletzt diese Regeln fast nie.
- Ergebnis: Katastrophe. Die künstlichen Daten sind um das 20- bis 100-fache schlechter als echte Daten, wenn es um dieses Verhalten geht.

Warum ist das so? (Die „Einzel-Produktions"-Maschine)

Das Problem liegt in der Art und Weise, wie diese Computerprogramme arbeiten.

Stellen Sie sich vor, Sie wollen eine Party nachstellen.

Echte Daten: Die Gäste kommen in Gruppen an, tanzen zusammen, nutzen denselben Drink und gehen in Wellen.
Die aktuellen Generatoren: Sie sind wie ein Roboter, der einen Gast nach dem anderen erschafft.
- Der Roboter denkt: „Okay, Gast 1 kommt rein. Welche Kleidung trägt er? Welche Uhrzeit? Okay, fertig."
- Dann macht er Gast 2. Er denkt dabei nicht an Gast 1.
- Das Ergebnis? Jeder Gast ist perfekt gekleidet, aber niemand tanzt mit jemandem zusammen. Niemand nutzt denselben Drink. Die „Partystimmung" (das Netzwerk und die Timing-Muster) ist komplett weg.

Selbst die fortschrittlichsten Modelle, die versuchen, die Reihenfolge zu beachten, scheitern daran, dass sie nicht wissen, was andere Gäste auf der Party tun. Sie können keine „Betrüger-Ringe" simulieren, weil sie keine Gruppen bilden können.

Die wichtigsten Erkenntnisse für die Praxis

Vertrauen Sie nicht blind auf die Statistiken: Nur weil die künstlichen Daten „statistisch" stimmen, heißt das nicht, dass sie für Betrugserkennungssysteme brauchbar sind. Ein System, das auf diesen Daten trainiert wird, wird in der echten Welt versagen, weil es die echten Betrugsmuster (wie schnelle Serienkäufe) nicht kennt.
Die „TVAE"-Falle: Ein bestimmtes Modell (TVAE) hat fast gar keine Betrüger in den Fake-Daten produziert, wenn man es nicht genau anweist. Das ist wie ein Koch, der vergisst, das Salz ins Essen zu tun, weil er denkt, es sei schon drin. Man muss ihm explizit sagen: „Mach genau 3,5 % Betrüger!"
Die Zukunft: Um echte Betrugsmuster zu simulieren, brauchen wir eine neue Art von KI. Diese KI muss nicht nur einzelne Zeilen erstellen, sondern ganze Gruppen von Personen gleichzeitig simulieren, damit sie sehen können, wer mit wem verbunden ist.

Fazit

Die Studie sagt uns: Künstliche Daten sind aktuell noch zu „glatt" und zu „einsam". Sie sehen aus wie echte Daten, verhalten sich aber wie eine Ansammlung von Einsiedlern, nicht wie eine Welt voller Betrüger, die in Gruppen agieren.

Wer diese Daten nutzt, um Betrugssysteme zu testen, muss sich bewusst sein, dass er ein sehr falsches Bild der Realität bekommt. Es ist, als würde man einen Flut-Schutzplan für einen Fluss erstellen, indem man nur Regentropfen simuliert, aber keine Flutwellen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Autor: Bhavana Sajja (Independent Researcher)
Datum: 13. April 2026 (Preprint)

1. Problemstellung

Die Erkennung von Finanzbetrug ist ein primär verhaltensbasiertes Problem. Produktions-Systeme identifizieren Betrug nicht nur anhand statischer Merkmale, sondern durch die Analyse von Verhaltensmustern wie:

Temporale Burst-Strukturen: Rasche Aufeinanderfolge von Transaktionen (z. B. 3 Transaktionen in 60 Sekunden).
Geschwindigkeitsregeln (Velocity Rules): Verletzungen von Schwellenwerten (z. B. >3 Transaktionen pro Stunde).
Geteilte Infrastruktur: Graphen-Motive, bei denen mehrere Konten dieselben Geräte-IDs oder IP-Adressen teilen (Betrugsringe).

Wenn echte Transaktionsdaten aufgrund von Datenschutzbestimmungen (z. B. GDPR) nicht geteilt werden können, werden synthetische Daten als Ersatz verwendet. Die zentrale Annahme ist, dass Generatoren die für die Betrugserkennung kritische Struktur bewahren. Die Arbeit zeigt jedoch, dass diese Annahme weitgehend ungetestet ist und in der Praxis massiv verletzt wird.

Die Lücke in der Bewertung:
Bestehende Benchmarks bewerten synthetische Daten nur auf zwei Ebenen:

Statistische Treue (Statistical Fidelity): Übereinstimmung von Randverteilungen und Korrelationen.
Downstream-Nützlichkeit (Downstream Utility): Leistung eines Klassifikators, der auf synthetischen Daten trainiert und auf echten Daten getestet wurde (TSTR-Protokoll).

Die Arbeit demonstriert, dass diese Metriken unzureichend sind. Ein Generator kann perfekte statistische Verteilungen liefern, aber die für die Betrugserkennung entscheidenden verhaltensbasierten Signale (z. B. Burst-Strukturen oder Graphen-Motive) zerstören.

2. Methodik und Rahmenwerk

A. Taxonomie der Verhaltensbetrugsmuster (P1–P4)

Der Autor definiert vier messbare Verhaltensmuster, die in der Betrugsliteratur etabliert sind:

P1: Inter-Event-Time (IET) Verteilung: Analyse der Zeitabstände zwischen Transaktionen innerhalb einer Entität. Betrug zeichnet sich durch komprimierte Abstände (Bursts) aus.
P2: Burst-Struktur und aktive Lebensdauer: Messung der Dichte von Transaktionsclustern und der Gesamtdauer der Aktivität eines Kontos.
P3: Geteilte Infrastruktur-Graphen-Motive: Analyse bipartiter Graphen (Entitäten vs. Attribute wie Geräte-IDs/IPs). Betrügerische Ringe zeigen hohe "Fan-out"-Werte (viele Nutzer teilen eine ID), während synthetische Daten oft zufällige Zuordnungen ohne diese Struktur erzeugen.
P4: Auslöseraten von Geschwindigkeitsregeln: Häufigkeit, mit der spezifische Geschäftsregeln (z. B. "mehr als 3 Transaktionen in 1 Stunde") ausgelöst werden.

B. Degradations-Ratio (DR) Metrik

Um die verschiedenen Metriken vergleichbar zu machen, wird eine Degradations-Ratio eingeführt:
$DR(G, m) = \frac{\text{Metrik}(D_{real}, D_{syn})}{\text{Metrik}(D_{real,A}, D_{real,B})}$
Der Nenner ist das "Rausch-Bodenniveau" (Noise Floor), berechnet aus einem 50/50-Split derselben realen Daten.

DR = 1.0: Der Generator ist vom realen Stichprobenrauschen nicht unterscheidbar (perfekt).
DR = k: Der Generator ist $k$ -mal schlechter als das natürliche Rauschen der realen Daten.

C. Drei-Schichten-Evaluierungsprotokoll

Layer 1: Statistische Treue (Jensen-Shannon-Divergenz, Korrelationsmatrix).
Layer 2: Downstream-Nützlichkeit (TSTR AUROC).
Layer 3: Verhaltens-Treue (Die neuen P1–P4 Metriken).

D. Experimentelles Setup

Generatoren: CTGAN, TVAE, GaussianCopula (DataCebo), TabularARGN (MOSTLY AI).
Datensätze:
- IEEE-CIS Fraud Detection: Für P1, P2, P4 (enthält Transaktionssequenzen pro Karte).
- Amazon Fraud Dataset: Für P3 (enthält explizite Geräte- und IP-IDs für Graphen-Analyse).
Besonderheit: Da row-unabhängige Generatoren keine Entitäts-IDs erzeugen, wurden synthetische Zeilen künstlich Entitäten zugeordnet, um die Bewertung fair zu gestalten (dies stellt eine untere Schranke für die tatsächliche Fehlerquote dar).

3. Wichtige Ergebnisse

A. Generelle Leistungsdefizite

Alle getesteten Generatoren scheitern katastrophal bei der Bewahrung von Verhaltensmustern:

Auf dem IEEE-CIS-Datensatz (P1, P2, P4) liegen die kombinierten Degradations-Ratios zwischen 24,4× (TVAE) und 39,0× (GaussianCopula).
Auf dem Amazon-Datensatz (P3) liegen row-unabhängige Generatoren bei 81,6× bis 99,7×.
Korrelation: Es gibt keine konsistente Beziehung zwischen Layer 1/2 und Layer 3. Ein Generator mit hohem TSTR-AUROC (z. B. CTGAN: 0,798) kann die schlechteste Verhaltens-Treue (P3: 99,7×) aufweisen.

B. Spezifische Ergebnisse nach Generator

TVAE: Zeigt nach Korrektur des "Minority-Class Collapse" (durch bedingtes Sampling) die beste Gesamtleistung (24,4×). Besonders bemerkenswert ist die P1-Autokorrelation (5,9×), was darauf hindeutet, dass der kontinuierliche latente Raum zeitliche Regularitäten besser erfasst als GANs.
CTGAN: Scheitert bei hochdimensionalen Daten (OOM-Fehler bei 394 Spalten), musste auf 48 Spalten reduziert werden. Hat die schlechteste P3-Leistung (99,7×).
GaussianCopula: Zeigt die schlechteste P1-Autokorrelation (75,1×), da die Gaußsche Abhängigkeitsstruktur keine sequenzielle Burst-Struktur kodieren kann.
TabularARGN:
- Bei P3 (Graph-Motive) erreicht er mit 17,2× das beste Ergebnis aller Generatoren (5× besser als row-unabhängige Modelle). Dies liegt am autoregressiven Ansatz, der Features innerhalb einer Zeile bedingt (z. B. device_id abhängig von class und purchase_value).
- Bei P1/P2 (Temporale Muster) bietet er jedoch keinen Vorteil gegenüber anderen Modellen (36,3×), da die Autoregression nur innerhalb einer Zeile wirkt, nicht zwischen den Zeilen einer Entität.

C. Theoretische Unmöglichkeit (Propositionen)

Der Autor beweist zwei fundamentale Grenzen für row-unabhängige Generatoren:

Proposition 1: Row-unabhängige Generatoren können keine schweren Verteilungen (Heavy-Tails) für geteilte Attribute (P3) erzeugen. Die Fan-out-Verteilung kollabiert zwangsläufig zu einer Poisson-Verteilung (Fan-out ≈ 1), da keine Kreuzzeilen-Abhängigkeit modelliert wird.
Proposition 2: Bei nachträglicher Zuweisung von Entitäten kollabiert die Autokorrelation der Inter-Event-Zeiten (P1) auf einen nicht-positiven Wert. Echte Betrugs-Bursts erfordern positive Autokorrelation (kurze Abstände folgen auf kurze Abstände), was durch unabhängiges Sampling unmöglich ist.

4. Fehlermodi und praktische Lösungen

Die Arbeit dokumentiert spezifische Fehler und deren Behebung:

TVAE Minority-Class Collapse: Ohne bedingtes Sampling kollabiert die Betrugsrate von 3,5% auf ~0,03%. Lösung: Explizites bedingtes Sampling (sample_from_conditions).
CTGAN Skalierungsfehler: One-Hot-Encoding führt bei vielen kategorischen Spalten (Vesta-Features) zu Speicherfehlern. Lösung: Explizite Filterung auf relevante Verhaltens-Features (48 Spalten).
TabularARGN Werteschutz: Standardmäßig werden seltene Werte durch _RARE_ ersetzt, was Graphen-Motive zerstört. Lösung: Deaktivierung von value_protection und Training mit allen relevanten Spalten.

5. Bedeutung und Implikationen

Warnung für die Praxis: Synthetische Daten aktueller Tabular-Generatoren sollten nicht als direkter Ersatz für echte Betrugsdaten in Workflows verwendet werden, die auf temporalen, geschwindigkeitsbasierten oder graphen-strukturellen Signalen beruhen (z. B. Kalibrierung von Velocity-Regeln oder Training von Ring-Erkennungsmodellen).
Unzureichende Metriken: Der TSTR-AUROC ist ein trügerischer Indikator für die Eignung von synthetischen Daten im Betrugsbereich.
Architektonische Grenzen: Die Ergebnisse zeigen, dass row-unabhängige Architekturen (GANs, VAEs, Copulas) strukturell unfähig sind, bestimmte Verhaltensmuster zu lernen.
Zukünftige Richtungen: Um Verhaltens-Treue zu erreichen, sind neue Architekturen notwendig:
- Entitätsbewusste sequenzielle Generierung (für P1/P2).
- Explizite Modellierung von Kreuz-Entitäten-Beziehungen (für P3).
- Direkte Optimierung auf Geschwindigkeitsregel-Auslöseraten (für P4).

Fazit: Die Arbeit etabliert "Behavioral Fidelity" als dritte, kritische Evaluierungsebene und liefert ein Open-Source-Framework, um zu beweisen, dass aktuelle State-of-the-Art-Generatoren für kritische Betrugsanwendungen ungeeignet sind, solange sie nicht die row-unabhängige Beschränkung überwinden.