Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que eres un detective de fraudes bancarios. Tu trabajo consiste en encontrar a los estafadores observando cómo se comportan las personas con sus tarjetas de crédito. No miras solo cuánto gastan, sino cómo gastan: ¿hacen tres compras en un minuto? ¿Usan la misma computadora que 50 personas diferentes? ¿Gastan una cantidad enorme justo después de abrir la cuenta?

Ahora, imagina que quieres entrenar a un nuevo detective (una Inteligencia Artificial) para que aprenda a detectar estos estafadores, pero no puedes mostrarle los datos reales porque eso violaría la privacidad de las personas. Así que decides crear una "falsa" base de datos, un universo de datos sintéticos, que se vea y suene como el real, pero que no contenga información real de nadie.

El problema que descubre este paper es que los generadores de datos sintéticos actuales son como fotógrafos que solo saben tomar fotos de objetos sueltos, pero no saben cómo se mueven las personas en una multitud.

Aquí te explico los puntos clave con analogías sencillas:

1. El Problema: La "Fidelidad Conductual"

Los expertos actuales evalúan si los datos falsos son buenos mirando dos cosas:

Estadística: ¿El promedio de gastos es el mismo? (Sí, el promedio de un café es 3 dólares en ambos mundos).
Utilidad: ¿Si entreno a un detective con datos falsos, funciona bien en la vida real? (A veces sí, pero no siempre).

Lo que falta: Nadie miraba si los datos falsos conservan el comportamiento.

Analogía: Imagina que tienes una lista de nombres de personas que van a una fiesta. Los datos falsos tienen los mismos nombres y las mismas bebidas que los reales. Pero en los datos reales, el estafador "Juan" entra, compra 10 tragos en 2 minutos y desaparece. En los datos falsos, "Juan" entra, compra un trago, espera 3 horas, compra otro, y así. El comportamiento de "ataque rápido" se ha borrado.

2. Las 4 Pruebas de la Verdad (Los "Detectives de Comportamiento")

El autor crea 4 pruebas para ver si los datos sintéticos mienten sobre el comportamiento:

P1: El Ritmo del Latido (Tiempo entre eventos):
- Realidad: Los estafadores hacen muchas transacciones muy rápido (como un corazón que late muy rápido en un ataque de pánico).
- Falsedad: Los generadores actuales hacen que los tiempos entre compras sean aleatorios y tranquilos. Pierden el "latido rápido".
P2: La Explosión (Estructura de ráfagas):
- Realidad: Un estafador hace una "ráfaga" de actividad intensa y luego silencio.
- Falsedad: En los datos falsos, la actividad está esparcida uniformemente, como si el estafador fuera un turista relajado en lugar de un ladrón.
P3: La Red de Conspiración (Gráficos compartidos):
- Realidad: Un grupo de estafadores usa el mismo dispositivo o la misma dirección IP (como un grupo de amigos usando el mismo coche para robar).
- Falsedad: Los generadores actuales asignan un dispositivo nuevo a cada persona. En el mundo falso, nadie comparte nada. La "red criminal" desaparece porque cada ladrón parece estar solo.
P4: Las Reglas de Velocidad:
- Realidad: Los bancos tienen reglas como "Si haces más de 3 compras en 1 hora, ¡ALERTA!".
- Falsedad: En los datos sintéticos, esas reglas casi nunca se activan. Si entrenas a tu IA con estos datos, cuando llegue al mundo real, tu IA dirá "todo está bien" cuando en realidad hay un robo en curso.

3. El Experimento: ¿Quién falló?

El autor probó 4 de los generadores de datos más famosos del mundo (CTGAN, TVAE, GaussianCopula y TabularARGN).

El resultado: ¡Todos fallaron estrepitosamente!
La analogía: Imagina que el "ruido de fondo" de la realidad (la variación natural) es un 1.0.
- Los generadores tradicionales (CTGAN, TVAE, etc.) obtuvieron puntuaciones de 24 a 99 veces peores que la realidad.
- Esto significa que si usas sus datos para entrenar a un detector de fraudes, tu detector estará 24 veces más ciego que si hubiera usado datos reales.

El único "medio" ganador:
Hubo un generador llamado TabularARGN que funcionó un poco mejor (17 veces peor que la realidad) cuando se le dio toda la información posible. Pero incluso él falló en las pruebas de tiempo y ritmo. Es como si un coche eléctrico fuera más rápido que una bicicleta, pero todavía no puede volar.

4. ¿Por qué ocurre esto? (La razón matemática simple)

El paper explica algo muy importante: La mayoría de estos generadores trabajan "fila por fila" de forma independiente.

Analogía: Imagina que tienes que escribir una novela de detectives.
- El generador actual: Escribe una página sobre un ladrón, luego cierra el libro, olvida todo, y escribe una página sobre un policía. No sabe que el ladrón y el policía se conocían en la página anterior.
- La realidad: El ladrón y el policía están conectados en la misma historia.
- Como los generadores no recuerdan lo que escribieron en la fila anterior, no pueden crear "grupos" de estafadores ni secuencias de tiempo rápidas. Es matemáticamente imposible que lo hagan con su arquitectura actual.

5. Conclusión: ¿Qué debemos hacer?

El mensaje principal es una advertencia seria:

No uses datos sintéticos actuales para entrenar sistemas de detección de fraudes si te importa el comportamiento.

Si usas estos datos falsos para configurar las reglas de seguridad de un banco, estarás creando un sistema que:

No verá a los estafadores rápidos.
No detectará a las bandas criminales.
Te dará una falsa sensación de seguridad.

La solución: Necesitamos inventar nuevos tipos de Inteligencia Artificial que no escriban "fila por fila", sino que entiendan la historia completa de una persona (su "identidad") y cómo se mueve en el tiempo, tal como lo haría un detective humano.

En resumen: Los datos sintéticos actuales son buenos para ver estadísticas generales, pero son terribles para entender el comportamiento humano real.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo de preimpresión "Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals" de Bhavana Sajja.

1. El Problema: La Brecha de Fidelidad Conductual

El fraude financiero es fundamentalmente un problema conductual. Los sistemas de detección operacionales no dependen únicamente de distribuciones marginales (por ejemplo, el monto promedio de una transacción), sino de señales conductuales complejas:

Patrones temporales: Explosiones de transacciones (bursts) en ventanas de tiempo cortas.
Reglas de velocidad: Violaciones de umbrales (ej. >3 transacciones en 1 hora).
Estructuras de grafos: Dispositivos o direcciones IP compartidas entre múltiples cuentas (anillos de fraude).

El artículo identifica que las evaluaciones actuales de datos sintéticos tabulares se centran en dos dimensiones insuficientes para el fraude:

Fidelidad Estadística: ¿Coinciden las distribuciones marginales y las correlaciones?
Utilidad Descendente (TSTR): ¿Un modelo entrenado con datos sintéticos clasifica bien los datos reales?

La tesis central: Un generador puede tener una alta fidelidad estadística y un buen AUROC en pruebas TSTR, pero destruir completamente las señales conductuales necesarias para la detección de fraude. El uso de datos sintéticos actuales en flujos de trabajo de fraude conlleva un riesgo operativo catastrófico de descalibración.

2. Metodología y Marco de Evaluación

El autor introduce una nueva dimensión de evaluación llamada Fidelidad Conductual y propone un marco de tres capas:

A. Taxonomía de Patrones de Fraude (P1–P4)

Se definen cuatro patrones medibles basados en la literatura de detección de fraude:

P1 (Distribución de Tiempo Inter-Evento): Mide la distribución de los intervalos de tiempo entre transacciones y la autocorrelación dentro de la entidad (¿siguen los intervalos cortos a otros intervalos cortos?).
P2 (Estructura de Explosión y Vida Activa): Evalúa la densidad de transacciones en "explosiones" (bursts) y la duración de la vida activa de la cuenta.
P3 (Motivos de Grafos de Infraestructura Compartida): Analiza la estructura de grafos bipartitos (entidades-atributos) para detectar dispositivos o IPs compartidos (fan-out de atributos, coeficiente de agrupamiento).
P4 (Tasas de Disparo de Reglas de Velocidad): Mide la frecuencia con la que se activan reglas operativas estándar (ej. "más de 3 transacciones en 1 hora").

B. Métrica de Degradación (Degradation Ratio - DR)

Para normalizar métricas heterogéneas (segundos, correlaciones, tasas), se introduce el Ratio de Degradación:
$DR(G, m) = \frac{\text{métrica}(D_{real}, D_{syn})}{\text{métrica}(D_{real,A}, D_{real,B})}$

El denominador es el "ruido de fondo" (la variabilidad natural al dividir el conjunto de datos real en dos mitades aleatorias).
DR = 1.0: El generador es indistinguible de una división aleatoria de datos reales.
DR = k: El generador es $k$ veces peor que la variabilidad natural.
Un generador perfecto tendría un DR de 1.0.

C. Configuración Experimental

Generadores Evaluados: CTGAN, TVAE, GaussianCopula (SDV) y TabularARGN (MOSTLY AI).
Datasets: IEEE-CIS Fraud Detection (Kaggle, 2019) para P1, P2, P4; Amazon Fraud Dataset (2020) para P3 (grafos).
Procedimiento: Se asignan IDs de entidad pseudo-sintéticos a los datos generados basándose en la distribución real de tamaños de entidad para evaluar la coherencia intra-entidad.

3. Contribuciones Clave

Taxonomía Formal: Definición cuantificable de patrones de fraude (P1-P4) que han sido ignorados en benchmarks anteriores.
Marco de Evaluación de Tres Capas: Propone que la fidelidad estadística y la utilidad descendente son necesarias pero no suficientes; la fidelidad conductual es un requisito independiente.
Pruebas Teóricas de Imposibilidad:
- Proposición 1: Los generadores independientes por fila (row-independent) son estructuralmente incapaces de reproducir motivos de grafos de alta densidad (P3) porque no pueden modelar la co-ocurrencia cruzada de filas.
- Proposición 2: Los generadores independientes por fila no pueden producir autocorrelación positiva en los intervalos de tiempo intra-entidad (P1/P2), destruyendo la "huella digital" de las explosiones de fraude.
Documentación de Fallos Específicos: Identificación de modos de fallo como el colapso de la clase minoritaria en TVAE y problemas de escalabilidad en CTGAN.

4. Resultados Principales

Todos los generadores evaluados fallaron catastróficamente en la fidelidad conductual, con ratios de degradación muy superiores a 1.0.

En IEEE-CIS (P1, P2, P4):
- TVAE: Mejor resultado general (24.4×), pero solo tras aplicar muestreo condicional para corregir el colapso de la clase minoritaria. Su autocorrelación temporal (P1) fue la mejor (5.9×), sugiriendo que el espacio latente continuo captura cierta regularidad.
- CTGAN: 32.2×. Peor en autocorrelación (40.5×).
- GaussianCopula: 39.0×. El peor en autocorrelación (75.1×) debido a su incapacidad para capturar dependencias secuenciales condicionales.
- TabularARGN: 36.3×. No mostró ventaja significativa sobre los generadores independientes en patrones temporales, ya que su arquitectura autoregresiva opera dentro de la fila, no entre filas.
En Amazon FDB (P3 - Grafos):
- Generadores Independientes (CTGAN, TVAE, GaussianCopula): 81.6× – 99.7×. Colapsaron la estructura de "fan-out" (dispositivos compartidos) a un valor de 1 (cada usuario tiene un dispositivo único), destruyendo los anillos de fraude.
- TabularARGN: 17.2×. Logró la mejor puntuación gracias a su arquitectura autoregresiva que condiciona las características entre sí dentro de la misma fila, permitiendo una correlación implícita de dispositivos. Sin embargo, 17.2× sigue siendo un fallo masivo comparado con el ruido real (1.0).

Hallazgo Crítico: No existe correlación entre el AUROC descendente (TSTR) y la fidelidad conductual. CTGAN tuvo un AUROC alto (0.798) pero el peor comportamiento en grafos (99.7×), mientras que GaussianCopula tuvo el AUROC más bajo (0.523) pero un comportamiento en grafos ligeramente mejor (81.6×).

5. Significado e Implicaciones

Riesgo Operativo: Utilizar datos sintéticos actuales para calibrar reglas de velocidad o entrenar detectores de anillos de fraude resultará en modelos descalibrados que fallarán en producción (falsos negativos o positivos).
Limitación Arquitectónica Fundamental: Los generadores que producen filas de forma independiente (el paradigma dominante) tienen una imposibilidad teórica de preservar patrones conductuales que requieren dependencias cruzadas (entre filas) o secuenciales complejas.
Recomendaciones para la Práctica:
- No usar datos sintéticos como reemplazo directo en flujos de trabajo de fraude sin validación de fidelidad conductual.
- Implementar la verificación de la tasa de fraude y el muestreo condicional (especialmente para TVAE).
- Para TabularARGN, desactivar la protección de valores y entrenar con todas las columnas relevantes para maximizar la preservación de motivos de grafos.
Generalización: Estos hallazgos se extienden más allá del fraude a dominios con datos secuenciales de entidades, como registros de salud (EHR), comportamiento de comercio electrónico y seguridad de redes, donde la fidelidad conductual es crítica.

Conclusión: El artículo demuestra que, con la tecnología actual, ningún generador tabular es un sustituto adecuado de datos reales para tareas que dependen de señales conductuales temporales, de velocidad o estructurales. Se requiere innovación arquitectónica (generación secuencial consciente de entidades y modelado relacional cruzado) para superar estas limitaciones. El autor libera el marco de evaluación como código abierto para permitir la auditoría futura.