Extended Empirical Validation of the Explainability Solution Space

이 기술 보고서는 직원 이직 예측과 도시 자원 할당이라는 두 가지 상이한 도메인에서의 검증 결과를 바탕으로, 설명 가능한 AI 전략 설계를 위한 '설명성 솔루션 공간 (ESS)' 프레임워크가 도메인 독립적이며 거버넌스 역할과 이해관계자 구성에 따라 체계적으로 적응하는 일반화된 의사결정 지원 도구임을 입증합니다.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏦 핵심 이야기: "AI 가 사기를 잡을 때, 누구에게 무엇을 설명해야 할까?"

은행은 매일 수백만 건의 카드 결제를 처리합니다. 그중 아주 작은 부분 (0.08%) 만 사기입니다. AI 가 "이건 사기야!"라고 판단하면, 0.2 초 안에 결제를 막아야 합니다.

하지만 문제는 AI 가 왜 그 결정을 내렸는지 설명해야 한다는 점입니다.

  • 규제 기관 (경찰/감사관): "왜 막았어? 증거를 보여줘. 나중에 감사할 때 설명할 수 있어야 해."
  • 고객 서비스 (상담원): "고객이 전화하면 뭐라고 말해? '알고리즘이 그랬어'라고 하면 안 되지. 이해하기 쉬운 이유를 줘."
  • 개발자 (엔지니어): "내 모델이 왜 망가졌는지, 어디가 고장 났는지 디버깅할 수 있게 상세한 로그를 줘."

이 세 가지 요구사항은 서로 충돌할 수 있습니다. (예: 아주 상세한 로그는 만들 수 있지만, 0.2 초 안에 만들기엔 너무 느릴 수 있음)

이 보고서의 저자들은 **"ESS(설명 가능성 해결 공간)"**라는 나침반을 만들어서, 어떤 설명 도구를 써야 할지 가장 합리적인 답을 찾았습니다.


🧭 나침반 (ESS) 의 작동 원리: 3 가지 축

이 나침반은 설명 도구를 평가할 때 세 가지 방향을 봅니다.

  1. 규제 준수 (Compliance): 나중에 감사받았을 때 변명할 수 있는 완벽한 증거가 있는가? (경찰용)
  2. 사용자 이해 (User): 일반인이나 상담원이 이해하기 쉬운가? (고객용)
  3. 개발자 유용성 (Developer): 개발자가 모델을 고치고 디버깅하기 쉬운가? (엔지니어용)

또한, 상황에 따른 가중치를 줍니다. 은행 사기 탐지는 "AI 가 먼저 막고 나중에 사람이 확인하는" 방식이므로, 규제와 고객 설명이 매우 중요하게 취급됩니다.


🛠️ 5 가지 설명 도구 (후보군) 의 특징

저자들은 5 가지 유명한 AI 설명 도구를 시험해 보았습니다.

도구 이름 비유 특징
SHAP 정밀한 블랙박스 기록장 AI 가 어떤 특징 (금액, 장소 등) 을 보고 판단했는지 숫자로 정확히 보여줌. 개발자와 규제 기관이 좋아함.
LIME 간단한 요약본 복잡한 AI 를 대신해서 아주 간단한 선형 모델로 근사해 설명. 이해하기 쉬움.
Counterfactual (반事实) "만약에..." 시나리오 "만약 금액이 10 만 원보다 적었다면 막지 않았을 거예요"라고 구체적인 행동 지침을 줌. 고객이 가장 좋아함.
Rule Extraction (규칙 추출) 매뉴얼 책 AI 의 복잡한 논리를 "A 이고 B 면 C 를 막아라" 같은 간단한 규칙으로 정리함. 감사용 최고.
Prototypes (유사 사례) 비유와 예시 "이 거래는 과거에 사기로 판명된 A 거래와 비슷해요"라고 유사한 사례를 보여줌. 직관적임.

🏆 최종 결과: "혼합 전략 (Hybrid Strategy)"

이 보고서의 가장 중요한 결론은 **"하나의 도구로 모든 문제를 해결할 수 없다"**는 것입니다. 대신 상황에 따라 세 가지 도구를 섞어서 쓰는 것이 정답이라는 것입니다.

1. Tier 1: 실시간 감시관 (SHAP 사용)

  • 역할: 모든 거래를 0.2 초 안에 처리할 때.
  • 이유: SHAP 은 속도가 빠르고 (0.05 초), 규제 기관이 요구하는 정확한 증거를 남기며, 개발자가 디버깅하기 좋습니다.
  • 비유: 24 시간 돌아가는 CCTV. 모든 걸 기록하고 빠르게 처리하지만, 일반인이 보기엔 숫자만 나옴.

2. Tier 2: 고객 상담용 (Counterfactual 사용)

  • 역할: 고객이 "왜 내 카드가 막혔냐"고 항의하거나, 사람이 다시 검토할 때만.
  • 이유: "만약 금액이 120 유로 미만이었다면 막히지 않았을 겁니다"라고 구체적인 해결책을 알려주므로 고객이 가장 만족합니다.
  • 비유: 경찰이 범인을 잡을 때 "만약 도구를 안 들고 갔다면 잡히지 않았을 거야"라고 설명하는 것.
  • 주의: 계산이 좀 느리므로 (0.1 초), 모든 거래에 다 쓰기엔 부담스럽고, 문제가 생긴 경우에만 사용합니다.

3. Tier 3: 주간 감사용 (Rule Extraction 사용)

  • 역할: 일주일에 한 번, 규제 기관에 제출할 보고서나 내부 매뉴얼을 만들 때.
  • 이유: "A 조건이면 B 를 막아라" 같은 간단한 규칙으로 AI 의 전체적인 행동을 설명할 수 있어 감사에 최고입니다.
  • 비유: 경찰서의 '수사 매뉴얼'이나 '법전'. 실시간으로 읽을 수는 없지만, 원칙을 설명할 때 최고.
  • 주의: 실시간 처리에는 너무 느려서 오프라인에서만 사용합니다.

💡 이 보고서가 우리에게 주는 교훈

  1. 상황이 다르면 정답도 다르다: 인사 (HR) 분야에서 좋은 방법이 은행 사기 탐지에서도 무조건 좋은 것은 아닙니다. 하지만 이 보고서에 따르면, SHAP(기본) + Counterfactual(고객용) + Rule(감사용) 조합은 두 분야 모두에서 훌륭한 결과를 냈습니다.
  2. 속도와 정확성의 균형: 은행은 0.2 초라는 제한이 있습니다. 아무리 좋은 설명도 0.2 초 안에 나오지 않으면 쓸모가 없습니다. 이 보고서가 이 제한을 고려한 현실적인 해결책을 제시했습니다.
  3. 혼합이 정답: "하나의 만능 열쇠"를 찾기보다, 상황에 맞는 여러 도구를 적재적소에 사용하는 것이 AI 시스템을 신뢰할 수 있게 만드는 지름길입니다.

한 줄 요약:

"은행 AI 는 SHAP으로 빠르게 감시하고, Counterfactual로 고객에게 사과하며, 규칙 추출로 감사관에게 보고하는 3 인조 팀을 꾸리는 것이 가장 현명합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →