Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 내게 해주는 설명이, 실제로 우리가 느끼는 '좋은 설명'과 일치할까?"**라는 아주 중요한 질문을 던집니다.

연구팀이 발견한 결론은 다소 충격적이지만 명확합니다. "지금까지 AI 연구자들이 설명의 질을 평가하기 위해 써온 '자동화된 점수표'들은, 실제 사람의 느낌과는 거의 연관이 없었습니다."

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.

🍔 비유: "요리사의 점수표 vs 손님의 입맛"

상상해 보세요. 한 유명 레스토랑에 새로운 요리사 (AI) 가 왔습니다. 이 요리사는 손님에게 "이 요리를 더 맛있게 만들려면 재료를 조금 바꿔보세요"라고 제안합니다. 이것이 바로 **반대적 설명 (Counterfactual Explanation)**입니다.

지금까지 이 레스토랑의 평가 시스템은 다음과 같이 작동했습니다:

자동 점수표 (기존 연구): "재료를 몇 개나 바꿨나?", "원래 재료와 얼마나 비슷했나?", "요리사끼리 의견이 일치했나?" 등을 계산해서 점수를 매겼습니다.
문제점: 이 점수표가 높다고 해서, 실제 손님들이 "와, 이 설명 정말 잘 들었어! 내 입맛에 딱 맞네!"라고 생각할까요?

이 논문은 **"자동 점수표가 높은 요리가, 실제로 손님의 입맛 (사용자 인식) 을 만족시킬까?"**를 실험으로 증명해 보았습니다.

🔍 실험 과정: 3 가지 다른 메뉴판 (데이터셋)

연구팀은 세 가지 다른 상황 (버섯 식별, 비만도 판단, 심장병 진단) 을 준비하고, AI 가 제안한 '만약에 (Counterfactual)' 설명들을 만들어냈습니다.
그리고 일반인 167 명을 불러와서 이 설명들을 평가하게 했습니다.

"이해하기 쉬웠나요?"
"믿을 수 있었나요?"
"만족스러웠나요?"

그리고 이 사람들의 평가 점수와, 컴퓨터가 계산한 '자동 점수표'를 비교해 봤습니다.

📉 발견된 충격적인 사실

결과물은 다음과 같았습니다:

점수표와 입맛은 전혀 다른 언어를 씁니다.
- 컴퓨터가 "이 설명은 완벽해! 점수 100 점!"이라고 외쳐도, 사람들은 "아니, 이거 너무 복잡해. 이해가 안 돼"라고 생각했습니다.
- 반대로 컴퓨터 점수가 낮아도, 사람들은 "오, 이거 직관적이네"라고 좋아하기도 했습니다.
- 비유: 요리사가 "소금 0.5g 만 추가했으니 점수 100 점이야!"라고 외쳐도, 손님은 "소금 맛이 너무 강해!"라고 불평하는 것과 같습니다.
상황에 따라 기준이 달라집니다.
- 어떤 상황 (버섯 데이터) 에서는 "적은 변화"를 원했지만, 다른 상황 (비만 데이터) 에서는 "풍부한 정보"를 원했습니다.
- 즉, 하나의 점수표로 모든 상황을 판단할 수 없습니다.
점수를 더 많이 합쳐도 소용없습니다.
- 연구팀은 "아마도 점수 하나만으로는 부족해서 그런가? 여러 가지 점수를 합쳐보면 어떨까?"라고 생각했습니다.
- 하지만 7 가지 점수를 모두 합쳐서 예측 모델을 만들어도, 사람의 마음을 예측하는 데는 실패했습니다.
- 비유: "소금 양, 설탕 양, 기름 양, 온도를 모두 재서 점수를 매겨도, 손님의 '맛있다'라는 감정을 예측할 수 없다면, 그 점수 체계 자체가 잘못된 것입니다."

💡 왜 이런 일이 일어날까요?

지금까지의 자동 평가 지표들은 수학적, 계산적인 기준 (예: 얼마나 적은 변화를 줬는가, 얼마나 데이터에 가까운가) 에만 집중했습니다.

하지만 사람이 설명을 받아들일 때는 심리적, 상황적인 기준 (예: 이게 내 상황에 적용 가능한가, 내가 이해할 수 있는 언어인가) 을 사용합니다. 이 두 가지는 마치 서로 다른 차원에 있는 것들이라, 서로 겹치는 부분이 거의 없는 것입니다.

🚀 결론 및 제언

이 논문의 핵심 메시지는 다음과 같습니다:

"지금 우리가 쓰는 AI 설명 평가 도구들은, 실제 사람의 마음을 대변하지 못합니다. 우리는 더 이상 '컴퓨터가 계산한 점수'에 의존하지 말고, '사람이 어떻게 느끼는지'를 직접 연구하고 그 기준을 세우는 새로운 시대가 필요합니다."

마치 요리 평가를 할 때, 단순히 '칼질 속도'나 '재료 무게'만 재는 게 아니라, 실제 손님이 맛보고 느끼는 감정을 중요하게 여기는 것과 같습니다. 앞으로는 AI 가 설명을 할 때, 사람의 마음을 움직이는 '진짜 좋은 설명'이 무엇인지부터 연구해야 한다는 뜻입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 반사실적 설명 (Counterfactual Explanations) 지표와 사용자 인식의 정합성 분석

1. 문제 제기 (Problem)

배경: 설명 가능한 인공지능 (XAI) 은 신뢰할 수 있는 AI 시스템 구축에 필수적이며, 그중 '반사실적 설명 (Counterfactual Explanations, CF)'은 "만약 입력이 어떻게 변했다면 결과가 달라졌을까?"라는 인간의 추론 방식과 부합하여 널리 사용됩니다.
현황: 현재 CF 의 품질을 평가하는 데는 주로 알고리즘적 지표 (Algorithmic Metrics) (예: 희소성, 근접성, 유효성 등) 가 사용됩니다. 이러한 지표는 계산적으로 효율적이지만, 인간이 설명의 품질을 어떻게 지각하는지에 대한 검증 없이 사용되고 있습니다.
핵심 질문: 기존에 널리 사용되는 자동화된 CF 평가 지표들이 실제로 인간이 느끼는 설명의 품질 (이해 가능성, 신뢰도, 만족도 등) 을 의미 있게 반영하는가?

2. 연구 방법론 (Methodology)

이 연구는 알고리즘적 지표와 인간 판단 간의 관계를 실증적으로 분석하기 위해 다음과 같은 체계적인 절차를 따랐습니다.

데이터셋 및 모델:
- UCI 머신러닝 리포지토리의 3 가지 표본 분류 데이터셋 사용: Mushroom (MUS), Obesity Levels (OBE), Heart Disease (HRT).
- 분류 모델: XGBoost (F1 점수 ≥ 0.85).
- CF 생성 방법: Counterfactuals Guided by Prototypes (CGP) 방법 사용 (Open-source library: Alibi Explain).
사용자 연구 (User Study):
- 참가자: Prolific 을 통해 모집된 167 명 (평균 연령 40.85 세, 고학력자 비율 높음).
- 과제: 3 개 데이터셋에서 생성된 총 85 개의 CF 를 평가. 각 CF 는 원본 인스턴스와 비교된 테이블 형태로 제시됨.
- 평가 척도: 5 가지 차원 (정확성, 이해 가능성, 타당성, 세부 사항의 충분성, 사용자 만족도) 에 대해 4 점 리커트 척도로 평가.
- 결과 집계: 5 가지 차원의 평점을 평균하여 결합 품질 점수 (Combined Quality Score, CQS) 로 통합.
자동화된 지표 (Automated Metrics):
- 7 가지 널리 사용되는 CF 지표를 계산:
  1. 희소성 (Sparsity): 변경된 피처의 수.
  2. 근접성 (Proximity): 원본과 CF 간의 거리 ( $\ell_1$ norm).
  3. 근접성 (Closeness): 훈련 데이터 매니폴드와의 거리.
  4. 다양성 (Diversity): 변경된 피처 간의 독립성.
  5. 오라클 점수 (Oracle Score): 두 모델 간의 예측 일치도.
  6. 신뢰 점수 (Trust Score): 예측 클래스와 다른 클래스 간의 거리 비율.
  7. 완전성 (Completeness): 변경된 피처가 모델의 중요도 (SHAP) 를 얼마나 반영하는지.
분석 기법:
- 상관 분석: 각 지표와 인간 평가 점수 (CQS 포함) 간의 피어슨 상관관계 분석.
- 예측 모델링: 7 가지 지표의 모든 부분집합 (127 개 조합) 을 사용하여 선형 회귀, 랜덤 포레스트 (RF), XGBoost 등 5 가지 모델을 학습시켜 인간 평가를 예측하는 성능 ( $R^2$ ) 평가.

3. 주요 기여 (Key Contributions)

통제된 사용자 연구 수행: 3 개의 다양한 데이터셋과 5 가지 품질 차원을 통해 CF 에 대한 인간 평가를 체계적으로 수집.
지표와 인간 평가의 정합성 정량화: 광범위한 자동화 지표 세트를 계산하고 인간 평가와의 정합성을 정량적으로 분석.
지표 결합의 효과 검증: 단일 지표뿐만 아니라 여러 지표의 조합이 인간 판단을 예측하는지 분석. 그 결과, 지표 수를 늘린다고 해서 예측력이 향상되지 않음을 입증.
평가 패러다임에 대한 시사점 제시: 현재 자동화된 지표가 인간 중심의 평가 기준을 대체할 수 없음을 주장하고, 인간 인식에 기반한 새로운 평가 방법론의 필요성을 제기.

4. 연구 결과 (Results)

상관관계 분석 (Correlation Analysis):
- 전반적 약한 상관관계: 알고리즘적 지표와 인간 평가 간의 상관관계는 전반적으로 매우 약함 (대부분 $|r| < 0.1$ ).
- 데이터셋 의존성: 상관관계의 방향과 크기가 데이터셋에 따라 극명하게 다름.
  - Mushroom: 희소성, 근접성 등이 만족도와 음의 상관관계 (변경이 적을수록 선호).
  - Obesity Levels: 다양성, 신뢰 점수 등이 양의 상관관계 (정보량이 많을수록 선호).
  - Heart Disease: 모든 지표에서 유의미한 상관관계가 발견되지 않음.
- 예외: '신뢰 점수 (Trust Score)'만이 전체 데이터셋을 통합했을 때 CQS 와 통계적으로 유의미한 양의 상관관계 ( $r \approx 0.3$ ) 를 보였으나, 이는 데이터셋에 따라 일관되지 않음.
예측 모델링 분석 (Predictive Modeling):
- 선형 모델 실패: 선형 회귀 모델은 모든 지표 조합에서 $R^2$ 가 음수 (평균 -1.253) 로, 인간 평가의 분산을 전혀 설명하지 못함.
- 비선형 모델의 한계: 랜덤 포레스트 (RF) 가 가장 좋은 성능을 보였으나, 평균 $R^2$ 는 0.067 에 불과하여 예측력이 매우 낮음.
- 지표 수 증가의 역효과: 지표의 수를 늘린다고 해서 예측 성능이 개선되지 않음. 오히려 3~4 개 이상의 지표를 추가하면 성능이 저하됨 (노이즈 증가).
- 결론: 기존 지표들의 조합은 인간이 느끼는 설명의 품질을 신뢰할 수 있게 예측하지 못함.

5. 의의 및 결론 (Significance & Conclusion)

구조적 불일치 (Structural Mismatch): 현재 CF 평가에 사용되는 알고리즘적 지표들은 인간이 설명의 품질을 판단하는 기준 (맥락, 심리적 타당성 등) 과 구조적으로 불일치함이 확인됨.
현행 관행에 대한 도전: 단순히 여러 자동화 지표를 나열하거나 조합하는 방식이 인간 평가를 대변하는 '프록시 (Proxy)'로 기능하지 못함을 입증.
향후 방향:
- 인간 중심의 이론에 기반하고 사용자 인식을 검증한 새로운 자동화 지표 개발 필요.
- 작업 유형, 모달리티, 설명 유형을 아우르는 추가적인 실증 연구를 통해 사용자가 진정으로 가치 있게 여기는 속성을 규명해야 함.
- 현재 지표가 포착하지 못하는 '실행 가능성 (Actionability)'과 같은 요소를 고려한 평가 체계 마련 필요.

요약하자면, 이 논문은 XAI 분야에서 널리 쓰이는 반사실적 설명의 자동화 평가 지표들이 실제 사용자의 인식과 거의 일치하지 않으며, 이를 대체할 수 있는 신뢰할 만한 계산적 지표는 아직 부재함을 실증적으로 증명했습니다.

Do Metrics for Counterfactual Explanations Align with User Perception?

🍔 비유: "요리사의 점수표 vs 손님의 입맛"

🔍 실험 과정: 3 가지 다른 메뉴판 (데이터셋)

📉 발견된 충격적인 사실

💡 왜 이런 일이 일어날까요?

🚀 결론 및 제언

논문 요약: 반사실적 설명 (Counterfactual Explanations) 지표와 사용자 인식의 정합성 분석

1. 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 연구 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers