Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"위조된 데이터가 실제 사기 사건을 얼마나 잘 흉내 낼 수 있는가?"**에 대한 충격적인 실험 결과를 담고 있습니다.

간단히 말해, **"프라이버시 보호를 위해 실제 신용카드 거래 데이터를 가짜 데이터 (합성 데이터) 로 만들어서 사기 탐지 시스템을 훈련시키면, 그 시스템이 실제 사기를 잡아낼 수 있을까?"**라는 질문에 답하는 연구입니다.

결론부터 말씀드리면, "현재 우리가 쓰는 대부분의 인공지능 기술로는 불가능합니다."

이 복잡한 내용을 누구나 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 비유: "요리 교본 vs. 실제 맛" (통계적 정확도 vs. 행동 패턴)

지금까지 인공지능이 만든 가짜 데이터를 평가할 때는 **"통계적 정확도"**만 봤습니다.

예시: "실제 데이터에서 평균 거래 금액이 1 만 원이고, 30% 가 사기였나요?" -> 가짜 데이터도 평균이 1 만 원이고 30% 라면 "완벽한 복제!"라고 칭찬했습니다.

하지만 이 논문은 **"행동적 충실도 (Behavioral Fidelity)"**라는 새로운 기준을 제시합니다.

비유: 가짜 데이터가 요리 교본의 수량은 정확히 맞췄지만, **실제 요리사가 요리하는 '리듬'과 '순서'**는 전혀 모방하지 못했다는 것입니다.
- 실제 사기범: "1 분 안에 3 번이나 카드를 긁는다 (급하게, 연속적으로)."
- 가짜 데이터 (AI): "하루에 3 번 카드를 긁는다." (시간은 1 분 간격이 아니라 1 시간, 2 시간, 3 시간 뒤에 나뉨).

결론: 숫자 (평균, 분포) 는 똑같아도, **사기범이 보여주는 '특유의 행동 패턴 (속도, 타이밍)'**은 가짜 데이터가 전혀 흉내 내지 못합니다.

2. 비유: "혼자서 춤추는 군무" (행렬 독립성의 한계)

이 논문은 현재 대부분의 AI 가 "행렬 독립 (Row-Independent)" 방식으로 작동한다고 지적합니다.

비유: AI 가 데이터를 만들 때, 각 행 (Row) 을 완전히 독립적으로 만든다는 뜻입니다. 마치 각자 혼자 춤을 추는 군무를 보는 것과 같습니다.
- 실제 사기 조직 (도둑무리): 도둑 A, B, C 가 같은 장난감 (장치 ID) 을 공유하며 함께 움직입니다. 서로 연결되어 있어 "이 장난감을 쓴 사람은 모두 도둑일 가능성이 높다"는 패턴이 생깁니다.
- AI 가 만든 데이터: 도둑 A 는 장난감 1 을 쓰고, 도둑 B 는 장난감 2 를, 도둑 C 는 장난감 3 을 씁니다. 서로 연결 고리가 없습니다. AI 는 "장난감 1 을 쓰는 사람이 100 명 있다"는 집단적 패턴을 만들지 못합니다.

연구의 핵심 발견:

CTGAN, TVAE, GaussianCopula 같은 기존 AI 들은 이 '집단적 연결'을 만들 수 없기에, 사기 조직 (도둑무리) 을 찾아내는 데 완전히 실패했습니다.
TabularARGN이라는 최신 AI 는 조금 더 잘하지만, 여전히 실제 사기 조직의 17 배나 더 엉망인 데이터를 만들어냈습니다.

3. 비유: "시계추의 리듬" (시간적 패턴의 붕괴)

사기범들은 보통 짧은 시간 동안 폭주합니다. (예: 10 초에 5 건의 거래). 이를 '버스트 (Burst)'라고 합니다.

비유: 실제 사기범은 시계추처럼 빠르게 앞뒤로 흔들리다가 갑자기 멈춥니다.
가짜 데이터: AI 는 이 '빠른 흔들림'을 모방하지 못합니다. 대신 매우 느리고 일정하게 흔들립니다.
- 결과: AI 가 만든 데이터로 훈련된 사기 탐지기는, "아, 이건 사기범이 아니야. 너무 느리게 거래하잖아"라고 착각하게 됩니다. 실제 사기범이 왔을 때는 "이건 너무 빨라서 사기야!"라고 경보를 울려야 하는데, 가짜 데이터로 훈련했기 때문에 경보가 울리지 않거나 (위험) 잘못 울립니다 (허위 경보).

📝 이 연구가 우리에게 주는 교훈

현재 기술로는 위험합니다: 은행이나 쇼핑몰이 "프라이버시 보호"를 핑계로 가짜 데이터만 써서 사기 탐지 시스템을 만든다면, 실제 사기를 놓치거나 엉뚱한 사람을 잡을 확률이 매우 높습니다.
새로운 평가 기준이 필요합니다: "숫자가 비슷하냐"만 보면 안 됩니다. **"사기범의 행동 리듬 (속도, 연결, 타이밍) 을 흉내 냈냐"**를 반드시 확인해야 합니다.
미래의 과제: AI 가 행렬 (Row) 단위가 아니라, 사람 (Entity) 단위로 데이터를 만들어야 합니다. 마치 한 가족의 일상을 통째로 시뮬레이션하듯이, 서로 연결된 관계를 이해하고 만들어내는 기술이 필요합니다.

한 줄 요약:

"현재의 AI 가 만든 가짜 데이터는 **숫자 (통계)**는 완벽하게 흉내 내지만, **사기범의 '행동 리듬'과 '조직도'**는 전혀 모방하지 못하므로, 실제 사기 탐지 시스템에 바로 쓰기엔 너무 위험합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

현황: 금융 사기 탐지는 본질적으로 '행동적' 문제입니다. 실제 사기 탐지 시스템은 거래 시퀀스의 시간적 패턴 (예: 60 초 내 3 건의 거래), 속도 규칙 위반 (velocity rule violations), 그리고 공유된 인프라 (IP, 기기 ID) 를 통한 다중 계정 간 연결 (그래프 모티프) 과 같은 행동 신호에 기반하여 작동합니다.
문제점: 개인정보 보호 (GDPR 등) 로 인해 실제 데이터를 공유할 수 없을 때 생성형 AI 를 이용한 합성 데이터 (Synthetic Data) 가 대안으로 사용되고 있습니다. 그러나 기존 합성 데이터 평가 프레임워크는 **통계적 충실도 (Statistical Fidelity, 분포 및 상관관계 일치)**와 **하류 유틸리티 (Downstream Utility, TSTR 프로토콜)**만 평가할 뿐, 실제 사기 탐지 시스템이 의존하는 **행동적 패턴 (Temporal, Velocity, Graph 구조)**이 보존되는지 검증하지 못합니다.
핵심 가설: 기존 생성 모델 (CTGAN, TVAE 등) 은 행 (Row) 단위로 독립적으로 데이터를 생성하는 방식을 따르므로, 개체 (Entity) 간 또는 개체 내의 복잡한 행동적 상관관계를 구조적으로 재현할 수 없어 실제 사기 탐지 워크플로우에 사용할 수 없습니다.

2. 방법론 (Methodology)

저자는 새로운 평가 차원인 **행동적 충실도 (Behavioral Fidelity)**를 도입하고, 이를 측정하기 위한 체계적인 프레임워크를 제안했습니다.

2.1 행동 사기 패턴 분류 (Taxonomy of Behavioral Fraud Patterns)

사기 탐지 문헌에 기반하여 4 가지 측정 가능한 패턴을 정의했습니다:

P1 (Inter-Event Time Distribution): 사건 간 시간 (IET) 분포. 사기는 짧은 간격의 거래 뭉치 (burst) 를 보이며, 이는 정상 계정과 구별되는 시간적 지문입니다.
P2 (Burst Structure & Active Lifetime): 뭉치 구조와 활성 수명. 사기 계정은 짧은 시간 동안 집중적으로 활동한 후 사라지는 반면, 정상 계정은 길고 산발적인 활동을 보입니다.
P3 (Shared-Infrastructure Graph Motifs): 공유 인프라 그래프 모티프. 사기 링 (Fraud Ring) 은 동일한 기기 ID 나 IP 를 공유하여 고밀도의 이분 그래프 (Bipartite Graph) 구조를 형성합니다.
P4 (Velocity-Rule Trigger Rates): 속도 규칙 트리거율. 산업 표준 속도 규칙 (예: 1 시간 내 3 건 이상 거래) 이 사기 데이터에서 발동되는 비율이 합성 데이터에서도 동일하게 유지되어야 합니다.

2.2 평가 지표: 열화 비율 (Degradation Ratio, DR)

각 행동 지표의 원시 값을 실제 데이터의 '노이즈 플로어 (Noise Floor)'에 정규화하여 **열화 비율 (DR)**로 계산합니다.

공식: $DR = \frac{\text{실제 데이터와 합성 데이터 간 거리}}{\text{실제 데이터 50/50 분할 간 거리}}$
해석: $DR = 1.0 $은 실제 데이터 분할 간의 차이와 동일함 (완벽한 보존),$ DR = k $는 실제 데이터 샘플링 변동성보다$ k$배 더 큰 왜곡을 의미합니다.

2.3 3 층 평가 프로토콜 (Three-Layer Evaluation Protocol)

Layer 1 (통계적 충실도): 한계 분포 및 상관관계 일치도.
Layer 2 (하류 유틸리티): 합성 데이터로 학습한 모델의 실제 데이터 테스트 성능 (TSTR AUROC).
Layer 3 (행동적 충실도): P1~P4 패턴에 대한 DR 점수 (본 논문의 핵심 기여).

2.4 실험 설정

데이터셋: IEEE-CIS Fraud Detection (시간적/속도 패턴 평가용), Amazon Fraud Dataset (그래프 모티프 평가용).
생성 모델: CTGAN, TVAE, GaussianCopula, TabularARGN (MOSTLY AI).

3. 주요 기여 (Key Contributions)

행동적 사기 패턴 분류 체계 (P1-P4) 정립: 시간적, 속도, 그래프 구조적 차원을 포괄하는 공식적이고 측정 가능한 사기 패턴 분류를 제시했습니다.
열화 비율 (Degradation Ratio) 평가 프레임워크: 실제 데이터의 샘플링 변동성을 기준 (Noise Floor) 으로 하여, 합성 데이터의 행동적 왜곡 정도를 정량화하는 새로운 평가 지표를 제안했습니다.
포괄적인 벤치마크: 4 가지 주요 생성 모델을 2 개의 공개 사기 데이터셋에서 평가하여, 기존 통계적 지표가 행동적 실패를 얼마나 놓치고 있는지를 실증했습니다.
이론적 한계 증명 (Proposition 1 & 2):
- Proposition 1: 행 독립 (Row-independent) 생성기는 구조적으로 공유 인프라 그래프 모티프 (P3) 를 재현할 수 없음을 증명했습니다.
- Proposition 2: 행 독립 생성기는 사후 개체 할당 (Post-hoc entity assignment) 을 하더라도 개체 내 시간적 자기상관 (Positive IET Autocorrelation) 을 생성할 수 없음을 증명했습니다. 즉, 사기의 '뭉치 (Burst)' 지문을 복제하는 것은 이론적으로 불가능합니다.

4. 실험 결과 (Results)

모든 평가된 생성 모델이 행동적 충실도 측면에서 치명적인 실패를 보였습니다.

IEEE-CIS (P1, P2, P4) 결과:
- CTGAN: TSTR AUROC 는 0.798 로 높았으나, 행동적 열화 비율 (Composite DR) 은 32.2 배로 매우 낮았습니다.
- TVAE: 조건부 샘플링 (Conditional Sampling) 을 적용한 후 24.4 배로 가장 좋은 점수를 기록했으나, 여전히 실제 데이터 변동성보다 24 배나 더 큰 왜곡을 보였습니다. 특히 P1 시간적 자기상관 부분에서 5.9 배로 가장 낮았으나 여전히 실패 수준입니다.
- GaussianCopula: TSTR AUROC 는 낮았으나 (0.523), 행동적 점수는 39.0 배로 가장 나빴습니다.
- TabularARGN: 36.3 배로, 시간적 패턴 (P1/P2) 에서는 행 독립 모델과 큰 차이가 없었습니다.
Amazon FDB (P3 그래프 모티프) 결과:
- 행 독립 모델 (CTGAN, TVAE, GaussianCopula): 81.6 배 ~ 99.7 배의 극심한 열화를 보였습니다. 이들은 기기/IP 공유 구조를 전혀 재현하지 못해 (Fan-out ≈ 1), 사기 링 구조가 완전히 파괴되었습니다.
- TabularARGN: 자기회귀 (Autoregressive) 아키텍처 덕분에 17.2 배로 가장 좋은 점수를 기록했습니다. 이는 행 내 특성 간 조건부 학습이 일부 공유 구조를 간접적으로 학습했기 때문이나, 여전히 1.0 기준에 비해 17 배나 큰 실패입니다.
발견된 실패 모드:
- TVAE: 조건부 샘플링을 하지 않으면 사기 클래스가 0.03% 로 붕괴되는 (Minority-class collapse) 치명적인 버그가 발견되었으며, 이를 해결해야만 평가가 가능했습니다.
- CTGAN: 고차원 데이터 (394 개 특성) 에서 OOM(메모리 부족) 오류가 발생하여, 특성 선택이 필수적이었습니다.

5. 의의 및 시사점 (Significance)

실무적 경고: 현재 시점의 합성 표본 데이터 생성기는 사기 탐지 워크플로우 (속도 규칙 조정, 사기 링 탐지, 시퀀스 이상 탐지 등) 에 실제 데이터의 대용으로 사용할 수 없습니다. 통계적 지표 (Layer 1, 2) 가 좋아도 행동적 충실도 (Layer 3) 는 완전히 무너질 수 있음을 보여주었습니다.
이론적 통찰: 행 독립 (Row-independence) 아키텍처는 본질적으로 개체 간 관계 (그래프) 와 개체 내 시간적 의존성 (뭉치) 을 재현할 수 없다는 구조적 한계가 있음을 수학적으로 증명했습니다.
미래 방향: 행동적 충실도를 개선하기 위해서는 행 단위 생성을 넘어, 개체 인식 (Entity-aware) 시퀀스 생성, 개체 간 관계 모델링, 그리고 속도 규칙 최적화 목적함수를 포함한 새로운 아키텍처 혁신이 필요합니다.
확장성: 이 프레임워크는 금융 사기뿐만 아니라 의료 기록 (환자 방문 패턴), 이커머스 (사용자 행동), IoT 보안 등 개체 수준의 시퀀스 데이터를 다루는 모든 분야에 적용 가능합니다.

결론적으로, 이 논문은 합성 데이터의 유틸리티를 평가할 때 통계적 정확도뿐만 아니라 **행동적 충실도 (Behavioral Fidelity)**를 필수적으로 검증해야 함을 강력하게 주장하며, 현재 존재하는 생성 모델들이 이 기준을 충족하지 못함을 실증적으로 증명했습니다.