Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive de fraudes bancárias. Sua missão é pegar ladrões que estão usando cartões de crédito roubados. Como você faz isso? Você não olha apenas para o valor da compra; você olha para o comportamento.

Um ladrão faz 5 compras em 1 minuto (um "burst" ou explosão de atividades).
Várias pessoas diferentes usam o mesmo computador ou o mesmo endereço IP para comprar coisas estranhas (uma "gangue" digital).
Alguém faz uma compra gigante logo após uma série de compras pequenas de teste.

Esses são os padrões comportamentais. É assim que os sistemas reais pegam os bandidos.

Agora, imagine que você precisa treinar seu time de detetives, mas não pode mostrar a eles os dados reais dos clientes (por causa de leis de privacidade). Então, você usa um gerador de dados sintéticos (uma Inteligência Artificial) para criar uma "falsa realidade" que parece verdadeira, mas não é.

O problema que este artigo aponta é o seguinte: Essas IAs são ótimas em criar números que parecem estatisticamente corretos, mas são péssimas em imitar o comportamento real dos ladrões.

Aqui está a explicação simples do que os pesquisadores descobriram, usando analogias do dia a dia:

1. O Problema do "Quebra-Cabeça Desconectado"

A maioria das IAs atuais gera dados linha por linha, como se estivessem montando um quebra-cabeça onde cada peça é escolhida aleatoriamente de uma caixa, sem olhar para as peças vizinhas.

A Analogia da Música: Imagine que a IA está tentando compor uma música. Ela sabe que a música deve ter notas de "Dó", "Ré" e "Mi" na mesma proporção que a música original (isso é a fidelidade estatística). Mas, ao compor, ela coloca essas notas em ordem aleatória. O resultado é uma sequência de notas que tem os sons certos, mas não tem ritmo, não tem melodia e não tem a "explosão" de um refrão.
No mundo real: A IA cria transações que parecem normais individualmente, mas quando você olha para a sequência de um único cliente, o comportamento de "ladrão" desaparece. O ladrão que fazia 5 compras em 1 segundo agora faz 1 compra por dia, porque a IA não entendeu que essas compras estavam conectadas no tempo.

2. O Teste dos "Três Andares"

Os pesquisadores criaram um novo sistema de avaliação com três andares para testar essas IAs:

Andar 1 (Estatística): Os números batem? (Ex: A média de gastos é a mesma?) -> A maioria das IAs passa aqui.
Andar 2 (Utilidade): Se treinarmos um detector de fraudes com esses dados falsos, ele funciona no mundo real? -> A maioria passa aqui também, mas de forma enganosa.
Andar 3 (Comportamento - O Novo): A IA conseguiu copiar os padrões de comportamento (tempo, velocidade, conexões entre pessoas)? -> AQUI É ONDE TODAS AS IAS FALHARAM CATASTROFICAMENTE.

3. O Que Eles Descobriram (Os 4 Padrões de Fraude)

O estudo testou quatro tipos de "assinaturas" de comportamento que as IAs deveriam copiar, mas não conseguiram:

O Ritmo do Tempo (P1): Ladrões agem rápido. A IA não conseguiu copiar a velocidade das transações.
A Explosão de Atividade (P2): Ladrões fazem muitas coisas de uma vez e somem. A IA espalhou essas ações de forma uniforme e chata.
A Rede de Conspiração (P3): Ladrões compartilham dispositivos (mesmo celular, mesmo IP).
- A Analogia: Imagine que em um filme de crime, 10 vilões usam o mesmo carro. A IA, ao criar o filme, deu um carro diferente para cada vilão, porque ela não "conectou" as pessoas. Ela perdeu a estrutura da gangue.
As Regras de Velocidade (P4): Sistemas reais têm regras como "Se 3 compras em 1 hora, bloqueie". A IA criou dados onde essas regras quase nunca disparavam, o que faria um sistema real falhar se fosse treinado com esses dados.

4. A Conclusão Chocante

O estudo testou 4 IAs famosas (CTGAN, TVAE, GaussianCopula e TabularARGN).

O Veredito: Nenhuma delas conseguiu copiar o comportamento real de forma aceitável.
A Pior Falha: As IAs que geram dados linha por linha (independente) são matematicamente incapazes de criar redes de ladrões (gangues) ou sequências temporais complexas. É como tentar desenhar uma teia de aranha desenhando cada fio de seda sem olhar para os outros fios.
A Melhor (mas ainda ruim): Uma IA chamada TabularARGN foi um pouco melhor em copiar as conexões (a rede de gangues), mas ainda falhou miseravelmente em copiar o ritmo do tempo. Ela foi 5 vezes melhor que as outras, mas ainda estava 17 vezes pior do que a realidade.

Por que isso importa para você?

Se um banco ou empresa usar esses dados sintéticos para treinar seus sistemas de segurança, eles estarão treinando seus guardiões com uma falsa realidade.

O Risco: O sistema de segurança vai aprender que "ladrões agem devagar" e "ladrões não compartilham celulares". Quando um ladrão real aparecer agindo rápido e em grupo, o sistema não vai perceber.
A Lição: Dados sintéticos são ótimos para muitas coisas, mas não podem ser usados como substituto direto para treinar sistemas de detecção de fraudes que dependem de comportamento, tempo e conexões entre pessoas, a menos que a tecnologia dê um salto gigante no futuro.

Em resumo: A IA sabe fazer números que parecem reais, mas ainda não aprendeu a "pensar" como um ladrão ou como um cliente real agindo no tempo. Ela é um ótimo estatístico, mas um péssimo imitador de comportamento humano.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A detecção de fraude financeira é fundamentalmente um problema comportamental. Sistemas de produção não detectam fraudes apenas baseando-se em distribuições marginais (ex: valor médio da transação), mas sim em padrões sequenciais e estruturais específicos, como:

Bursts temporais: Múltiplas transações em janelas de tempo curtas (ex: 3 transações em 60 segundos).
Violações de regras de velocidade: Padrões que acionam alertas de velocidade (ex: transações em múltiplos dispositivos).
Estruturas de grafos compartilhados: Múltiplas contas de usuários compartilhando o mesmo ID de dispositivo, IP ou endereço de cobrança (indicativo de "anéis" de fraude coordenada).

O artigo identifica uma lacuna crítica na avaliação de dados tabulares sintéticos. As métricas atuais focam em:

Fidelidade Estatística: Se as distribuições marginais e correlações pareadas correspondem aos dados reais.
Utilidade a Montante (Downstream Utility): Se um modelo treinado em dados sintéticos performa bem em dados reais (protocolo TSTR - Train-on-Synthetic, Test-on-Real).

O autor argumenta que essas métricas são insuficientes para fraudes. Um gerador pode ter alta fidelidade estatística e bom AUROC no TSTR, mas destruir completamente a estrutura de "burst" e as dependências entre entidades que os sistemas de detecção real dependem.

2. Metodologia e Taxonomia Comportamental

O paper introduz o conceito de Fidelidade Comportamental como uma terceira dimensão de avaliação e propõe uma taxonomia formal de quatro padrões de fraude (P1–P4):

P1: Distribuição de Tempo entre Eventos (IET): Foca no tempo inter-evento dentro de uma entidade. A fraude é caracterizada por gaps temporais comprimidos e autocorrelação positiva (um gap curto seguido de outro curto).
P2: Estrutura de Burst e Vida Ativa: Mede a duração da vida ativa da conta e o tamanho dos bursts de transações. Fraudadores tendem a ter vidas ativas curtas e bursts densos.
P3: Motivos de Grafos de Infraestrutura Compartilhada: Analisa a estrutura de grafos bipartidos (Entidade-Ativo, ex: Usuário-Dispositivo). Padrões reais de fraude exibem "fan-out" (saída) alto e heavy-tailed (poucos dispositivos usados por muitos usuários fraudulentos).
P4: Taxas de Acionamento de Regras de Velocidade: Mede a frequência com que regras operacionais (ex: ">3 transações em 1 hora") são acionadas nos dados sintéticos versus reais.

Métrica de Avaliação: Razão de Degradação (Degradation Ratio - DR)
Para tornar as métricas comparáveis, o autor define uma Razão de Degradação:
$DR(G, m) = \frac{\text{Métrica}(D_{real}, D_{syn})}{\text{Métrica}(D_{real, A}, D_{real, B})}$
O denominador é o "ruído de fundo" (noise floor), calculado dividindo os dados reais em duas metades aleatórias.

DR = 1.0: O gerador é indistinguível da variação de amostragem natural dos dados reais.
DR = k: O gerador é $k$ vezes pior que a variação natural. Valores altos indicam falha catastrófica.

Protocolo de Avaliação de Três Camadas:

Camada 1: Fidelidade Estatística (Divergência JS, Correlações).
Camada 2: Utilidade (AUROC TSTR).
Camada 3: Fidelidade Comportamental (Razões de Degradação P1-P4).

3. Contribuições Principais

Taxonomia Formal de Padrões de Fraude: Definição mensurável de P1-P4 baseada na literatura de detecção de fraude.
Framework de Avaliação: Introdução da Razão de Degradação ancorada no ruído de dados reais, permitindo comparação direta entre diferentes escalas de métricas.
Benchmark Empírico: Avaliação de quatro geradores dominantes (CTGAN, TVAE, GaussianCopula, TabularARGN) em dois conjuntos de dados públicos (IEEE-CIS e Amazon FDB).
Provas Teóricas de Impossibilidade:
- Proposição 1: Geradores independentes de linha (row-independent) são estruturalmente incapazes de reproduzir motivos de grafos de alta densidade (P3), pois não podem modelar co-ocorrências entre linhas.
- Proposição 2: Geradores independentes de linha com atribuição de entidade a posteriori produzem autocorrelação IET não-positiva, tornando impossível reproduzir a "impressão digital" de bursts de fraude (P1/P2).

4. Resultados do Benchmark

Os quatro geradores testados falharam severamente na fidelidade comportamental, mesmo quando obtiveram bons resultados nas camadas 1 e 2.

IEEE-CIS (Padrões P1, P2, P4):
- CTGAN: DR Composto ~32.2x. Falha na autocorrelação temporal (40.5x).
- TVAE: DR Composto ~24.4x (o melhor entre os testados, mas apenas após correção de amostragem condicional). Mostrou uma melhoria notável na autocorrelação (5.9x) quando a distribuição de classes foi corrigida, sugerindo que o espaço latente contínuo do VAE captura melhor a regularidade temporal.
- GaussianCopula: DR Composto ~39.0x. Pior desempenho em autocorrelação (75.1x).
- TabularARGN: DR Composto ~36.3x. Não ofereceu vantagem significativa sobre os outros para padrões temporais, apesar de sua arquitetura autoregressiva.
Amazon FDB (Padrão P3 - Grafos):
- Geradores Independentes (CTGAN, TVAE, GaussianCopula): DR entre 81.6x e 99.7x. Eles colapsam o "fan-out" de dispositivos para 1 (cada usuário recebe um dispositivo único), destruindo a estrutura de anéis de fraude.
- TabularARGN: DR de 17.2x. Este foi o melhor resultado, demonstrando que a condicionamento autoregressivo dentro da linha (aprendendo $p(device | features)$) ajuda a preservar alguma estrutura de co-ocorrência, mas ainda está muito longe do ideal (1.0x).

Falhas Específicas Identificadas:

Colapso da Classe Minoritária no TVAE: Sem amostragem condicional, o TVAE gerou ~0.03% de fraudes (vs 3.5% real), tornando os dados inúteis. A correção condicional restaurou a fidelidade.
Falha de Escalabilidade do CTGAN: O gerador falhou com OOM (Out of Memory) em dados completos devido ao one-hot encoding de colunas Vesta, exigindo uma subamostragem estratificada.

5. Significado e Implicações

Inadequação Atual: Dados sintéticos gerados por geradores tabulares atuais não devem ser usados como substitutos diretos para dados reais em fluxos de trabalho que dependem de sinais comportamentais (calibração de regras de velocidade, detecção de anéis, modelos de anomalia sequencial).
Ilusão de Utilidade: Métricas como AUROC (Camada 2) podem mascarar falhas catastróficas na fidelidade comportamental (Camada 3). Um modelo pode ter bom AUROC mas falhar em detectar fraudes reais devido à miscalibração de regras.
Limitação Arquitetural Fundamental: A independência de linha (gerar uma linha de cada vez sem memória de outras linhas) é uma barreira teórica intransponível para a fidelidade comportamental em fraudes.
Generalização: O problema não se limita à fraude financeira. Aplica-se a qualquer domínio com dados tabulares sequenciais de entidades, como registros de saúde (EHR), comportamento de e-commerce e segurança de redes (IoT).

Conclusão: O artigo estabelece que a fidelidade comportamental é uma dimensão de avaliação distinta e crítica. Para avançar, a comunidade precisa de arquiteturas que gerem dados com consciência de entidade (entity-aware) e modelagem relacional explícita entre linhas, em vez de apenas condicionamento dentro da linha ou independência total. O framework de avaliação e o código foram lançados como open source para permitir a reprodutibilidade.

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

1. O Problema do "Quebra-Cabeça Desconectado"

2. O Teste dos "Três Andares"

3. O Que Eles Descobriram (Os 4 Padrões de Fraude)

4. A Conclusão Chocante

Por que isso importa para você?

1. O Problema

2. Metodologia e Taxonomia Comportamental

3. Contribuições Principais

4. Resultados do Benchmark

5. Significado e Implicações

Mais como este

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking