Extended Empirical Validation of the Explainability Solution Space

Each language version is independently generated for its own context, not a direct translation.

🏦 핵심 이야기: "AI 가 사기를 잡을 때, 누구에게 무엇을 설명해야 할까?"

은행은 매일 수백만 건의 카드 결제를 처리합니다. 그중 아주 작은 부분 (0.08%) 만 사기입니다. AI 가 "이건 사기야!"라고 판단하면, 0.2 초 안에 결제를 막아야 합니다.

하지만 문제는 AI 가 왜 그 결정을 내렸는지 설명해야 한다는 점입니다.

규제 기관 (경찰/감사관): "왜 막았어? 증거를 보여줘. 나중에 감사할 때 설명할 수 있어야 해."
고객 서비스 (상담원): "고객이 전화하면 뭐라고 말해? '알고리즘이 그랬어'라고 하면 안 되지. 이해하기 쉬운 이유를 줘."
개발자 (엔지니어): "내 모델이 왜 망가졌는지, 어디가 고장 났는지 디버깅할 수 있게 상세한 로그를 줘."

이 세 가지 요구사항은 서로 충돌할 수 있습니다. (예: 아주 상세한 로그는 만들 수 있지만, 0.2 초 안에 만들기엔 너무 느릴 수 있음)

이 보고서의 저자들은 **"ESS(설명 가능성 해결 공간)"**라는 나침반을 만들어서, 어떤 설명 도구를 써야 할지 가장 합리적인 답을 찾았습니다.

🧭 나침반 (ESS) 의 작동 원리: 3 가지 축

이 나침반은 설명 도구를 평가할 때 세 가지 방향을 봅니다.

규제 준수 (Compliance): 나중에 감사받았을 때 변명할 수 있는 완벽한 증거가 있는가? (경찰용)
사용자 이해 (User): 일반인이나 상담원이 이해하기 쉬운가? (고객용)
개발자 유용성 (Developer): 개발자가 모델을 고치고 디버깅하기 쉬운가? (엔지니어용)

또한, 상황에 따른 가중치를 줍니다. 은행 사기 탐지는 "AI 가 먼저 막고 나중에 사람이 확인하는" 방식이므로, 규제와 고객 설명이 매우 중요하게 취급됩니다.

🛠️ 5 가지 설명 도구 (후보군) 의 특징

저자들은 5 가지 유명한 AI 설명 도구를 시험해 보았습니다.

도구 이름	비유	특징
SHAP	정밀한 블랙박스 기록장	AI 가 어떤 특징 (금액, 장소 등) 을 보고 판단했는지 숫자로 정확히 보여줌. 개발자와 규제 기관이 좋아함.
LIME	간단한 요약본	복잡한 AI 를 대신해서 아주 간단한 선형 모델로 근사해 설명. 이해하기 쉬움.
Counterfactual (반事实)	"만약에..." 시나리오	"만약 금액이 10 만 원보다 적었다면 막지 않았을 거예요"라고 구체적인 행동 지침을 줌. 고객이 가장 좋아함.
Rule Extraction (규칙 추출)	매뉴얼 책	AI 의 복잡한 논리를 "A 이고 B 면 C 를 막아라" 같은 간단한 규칙으로 정리함. 감사용 최고.
Prototypes (유사 사례)	비유와 예시	"이 거래는 과거에 사기로 판명된 A 거래와 비슷해요"라고 유사한 사례를 보여줌. 직관적임.

🏆 최종 결과: "혼합 전략 (Hybrid Strategy)"

이 보고서의 가장 중요한 결론은 **"하나의 도구로 모든 문제를 해결할 수 없다"**는 것입니다. 대신 상황에 따라 세 가지 도구를 섞어서 쓰는 것이 정답이라는 것입니다.

1. Tier 1: 실시간 감시관 (SHAP 사용)

역할: 모든 거래를 0.2 초 안에 처리할 때.
이유: SHAP 은 속도가 빠르고 (0.05 초), 규제 기관이 요구하는 정확한 증거를 남기며, 개발자가 디버깅하기 좋습니다.
비유: 24 시간 돌아가는 CCTV. 모든 걸 기록하고 빠르게 처리하지만, 일반인이 보기엔 숫자만 나옴.

2. Tier 2: 고객 상담용 (Counterfactual 사용)

역할: 고객이 "왜 내 카드가 막혔냐"고 항의하거나, 사람이 다시 검토할 때만.
이유: "만약 금액이 120 유로 미만이었다면 막히지 않았을 겁니다"라고 구체적인 해결책을 알려주므로 고객이 가장 만족합니다.
비유: 경찰이 범인을 잡을 때 "만약 도구를 안 들고 갔다면 잡히지 않았을 거야"라고 설명하는 것.
주의: 계산이 좀 느리므로 (0.1 초), 모든 거래에 다 쓰기엔 부담스럽고, 문제가 생긴 경우에만 사용합니다.

3. Tier 3: 주간 감사용 (Rule Extraction 사용)

역할: 일주일에 한 번, 규제 기관에 제출할 보고서나 내부 매뉴얼을 만들 때.
이유: "A 조건이면 B 를 막아라" 같은 간단한 규칙으로 AI 의 전체적인 행동을 설명할 수 있어 감사에 최고입니다.
비유: 경찰서의 '수사 매뉴얼'이나 '법전'. 실시간으로 읽을 수는 없지만, 원칙을 설명할 때 최고.
주의: 실시간 처리에는 너무 느려서 오프라인에서만 사용합니다.

💡 이 보고서가 우리에게 주는 교훈

상황이 다르면 정답도 다르다: 인사 (HR) 분야에서 좋은 방법이 은행 사기 탐지에서도 무조건 좋은 것은 아닙니다. 하지만 이 보고서에 따르면, SHAP(기본) + Counterfactual(고객용) + Rule(감사용) 조합은 두 분야 모두에서 훌륭한 결과를 냈습니다.
속도와 정확성의 균형: 은행은 0.2 초라는 제한이 있습니다. 아무리 좋은 설명도 0.2 초 안에 나오지 않으면 쓸모가 없습니다. 이 보고서가 이 제한을 고려한 현실적인 해결책을 제시했습니다.
혼합이 정답: "하나의 만능 열쇠"를 찾기보다, 상황에 맞는 여러 도구를 적재적소에 사용하는 것이 AI 시스템을 신뢰할 수 있게 만드는 지름길입니다.

한 줄 요약:

"은행 AI 는 SHAP으로 빠르게 감시하고, Counterfactual로 고객에게 사과하며, 규칙 추출로 감사관에게 보고하는 3 인조 팀을 꾸리는 것이 가장 현명합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 유럽 소매 은행의 실시간 사기 탐지 시스템은 XGBoost 와 같은 복잡한 앙상블 모델을 사용하며, 이는 '블랙박스' 특성으로 인해 규제 기관 (PSD2, GDPR 제 22 조, EBA 가이드라인) 과 사용자 (고객, 분석가) 의 신뢰를 얻기 어렵습니다.
문제점:
- 엄격한 규제: 자동화된 결정에 대한 감사 가능성 (Auditability) 과 설명 권리 (Right to Explanation) 가 요구됩니다.
- 실시간 제약: 거래 처리는 200ms 이내의 지연 시간 (Latency) 예산 내에서 이루어져야 하며, 이는 설명 생성 (Explainability) 도 이 시간 내에 완료되어야 함을 의미합니다.
- 이중 사용자 요구: 규제 감사관 (감사 로그 필요), 사기 분석가 (행동 가능한 인사이트 필요), 고객 서비스 담당자 (비기술적 설명 필요) 등 이해관계자마다 상충되는 요구사항이 존재합니다.
- 데이터 불균형: 사기 거래 비율이 약 0.08% 로 극단적으로 불균형한 환경입니다.
목표: 이전 연구 (HR 이직률 예측) 에서 제안된 설명 가능성 솔루션 공간 (Explainability Solution Space, ESS) 프레임워크를 금융 사기 탐지라는 완전히 다른 도메인에 적용하여, 프레임워크의 일반화 가능성 (Generalisability) 을 검증하고 최적의 하이브리드 설명 전략을 도출하는 것입니다.

2. 방법론 (Methodology)

이 연구는 ESS 프레임워크를 기반으로 한 체계적인 평가 파이프라인을 적용했습니다.

ESS 프레임워크 적용:
- 3 차원 축: 규제 준수 (Compliance, C), 사용자 이해도 (User, U), 개발자 유틸리티 (Developer, D) 로 구성됩니다.
- 대체 (Substitution) 시나리오: AI 가 인간 개입 없이 결정을 내리는 가장 엄격한 거버넌스 시나리오로 분류되며, 이를 반영하기 위해 맥락적 승수 (Contextual Multipliers, $\gamma$ ) 를 적용했습니다 ( $\gamma_C=1.15, \gamma_U=1.10, \gamma_D=1.00$ ).
평가 대상 XAI 기법 (5 가지):
1. SHAP (TreeExplainer): 트리 구조 기반의 정확한 특성 기여도 분석.
2. LIME: 로컬 선형 대리 모델.
3. Counterfactuals (CF): 결정이 반전되기 위한 최소한의 조건 변경 (예: "금액이 120 유로 미만이었다면 승인됨").
4. Rule Extraction (RULE): 전역 의사결정 트리 대리 모델 (규칙 추출).
5. Prototypes (PROTO): 유사한 사례 (프로토타입) 기반 설명.
평가 프로세스:
1. 고유 속성 벡터 할당: 각 기법에 대해 7 가지 속성 (감사성, 추적성, 이해도, 행동 가능성, 충실도, 디버깅성, 효율성) 을 1~5 점 척도로 평가.
2. 이해관계자 가중치 집계: 속성 벡터를 C, U, D 축으로 변환.
3. 맥락적 조정: 대체 시나리오 승수를 적용하여 점수 조정 및 1~5 점 범위로 클리핑.
4. 다목적 최적화: 자원 제약 (지연 시간) 을 고려한 유틸리티 점수 ( $U_t$ ) 와 자원 비용 ( $R_t$ ) 을 계산하여 효율성 조정 비율 ( $U/R$ ) 산출.

3. 주요 기여 (Key Contributions)

ESS 프레임워크의 도메인 간 검증: HR 도메인 (배치 처리) 에서 금융 도메인 (실시간, 고강도 규제) 으로 ESS 를 확장하여, 프레임워크가 다양한 운영 환경에서 일관된 결과를 산출함을 입증했습니다.
자원 인식형 하이브리드 전략 제안: 단일 기법이 모든 요구를 충족할 수 없음을 보여주고, 운영 제약 (200ms) 과 규제 요구를 동시에 만족시키는 3 단계 계층적 하이브리드 설명 전략을 제시했습니다.
실용적 의사결정 지원 도구: 이론적 설명 가능성 (XAI) 을 실제 은행 시스템의 지연 시간 예산과 규제 준수 요구사항에 맞춰 구체화한 실증적 가이드라인을 제공합니다.

4. 결과 (Results)

기법별 성능 평가 (조정 후 점수):
- SHAP: 규제 준수 (High, 3.91) 와 개발자 유틸리티 (High, 4.70) 에서 가장 균형 잡힌 성능을 보였으며, 가장 높은 효율성 조정 유틸리티 (U/R = 15.3) 를 기록했습니다. 50ms 미만의 지연 시간으로 실시간 파이프라인에 적합합니다.
- Counterfactuals: 사용자 이해도 및 행동 가능성 (High, 5.00) 에서 최고 점수를 받았으나, 규제 준수 측면에서는 제한적입니다. 약 100ms 의 지연 시간이 발생하여 분쟁 처리 등 제한된 경우에 적합합니다.
- Rule Extraction: 규제 준수 (High, 5.00) 에서 최상위 점수였으나, 계산 비용이 높고 오프라인 처리만 가능하여 실시간 파이프라인에서는 제외되었습니다.
- LIME & Prototypes: 중간 수준의 성능을 보였으나, SHAP 나 CF 에 비해 명확한 우위를 점하지 못했습니다.
최종 추천 전략 (Tiered Hybrid Strategy):
- Tier 1 (상시 실행): 모든 거래에 SHAP 적용 (감사 로그 및 디버깅용).
- Tier 2 (선택적 실행): 거절된 거래 중 분쟁/분석가 검토 대상 (약 2~5%) 에 Counterfactuals 적용 (고객에게 행동 가능한 구제 수단 제공).
- Tier 3 (정기적 실행): 주간/월간 Rule Extraction 수행 (규제 보고 및 거버넌스 문서화용).

5. 의의 및 결론 (Significance)

일반화 가능성 입증: 서로 다른 도메인 (HR vs 금융) 에서 ESS 가 일관된 추천 (SHAP 기본 + CF 선택적 + RULE 오프라인) 을 도출함으로써, ESS 가 다양한 AI 시스템의 설명 가능성 전략을 설계하는 보편적인 프레임워크임을 입증했습니다.
실무적 가치: 이 연구는 단순히 "어떤 기법이 좋은가"를 넘어, "어떤 시나리오에서 어떤 기법을 언제 사용해야 하는가"에 대한 구체적인 운영 가이드를 제공합니다. 특히 200ms 라는 엄격한 실시간 제약 하에서도 규제 준수를 달성할 수 있는 방안을 제시했습니다.
한계 및 향후 과제:
- 현재 ESS 는 지연 시간을 '효율성' 속성으로만 간접적으로 반영할 뿐, 하드 제약 조건으로 명시적으로 처리하지는 못합니다.
- 사기 탐지 데이터의 적대적 비정상성 (Adversarial Non-stationarity) 과 시간적 안정성을 설명 가능성 속성에 포함할 필요가 있습니다.
- 향후 실제 은행 데이터와 사용자 (분석가, 감사관) 를 대상으로 한 대규모 실증 연구가 필요합니다.

결론적으로, 이 보고서는 ESS 프레임워크가 복잡한 규제 환경과 실시간 제약이 공존하는 금융 사기 탐지 시스템에서도 효과적으로 작동하며, 최적의 설명 가능성 전략을 체계적으로 도출할 수 있음을 실증적으로 검증한 중요한 기술 보고서입니다.