Procedural Fairness via Group Counterfactual Explanation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 결정을 내릴 때, **"결과가 공정할 뿐만 아니라, 그 이유를 설명하는 방식도 공정해야 한다"**는 새로운 아이디어를 제안합니다.

기존의 AI 공정성 연구는 "남성과 여성이 대출을 받을 확률이 같은가?" 같은 **결과 (Outcome)**에만 집중했습니다. 하지만 이 논문은 "결과가 같더라도, 남성은 '소득'을 보고 대출을 승인하고 여성은 '학력'을 보고 승인했다면, 이는 여전히 불공정하지 않은가?"라고 질문합니다.

이 복잡한 개념을 일상적인 비유로 쉽게 설명해 드리겠습니다.

🍎 비유: 두 명의 학생과 까다로운 선생님

가상의 상황을 상상해 보세요. **선생님 (AI 모델)**이 두 명의 학생 (A 와 B) 의 시험 성적을 평가합니다.

기존의 공정성 (결과 중심):
- 선생님은 A 와 B 모두 90 점이라는 동일한 점수를 줍니다.
- 통계적으로 보면 "공정하다"고 할 수 있습니다. (결과가 같으니까요.)
- 하지만 문제: A 는 '수학' 문제를 잘 풀어서 90 점을 받았고, B 는 '국어' 문제를 잘 풀어서 90 점을 받았습니다.
- 만약 A 가 남학생이고 B 가 여학생이라면, 선생님은 남학생에게는 수학을, 여학생에게는 국어를 보는 기준을 적용한 것입니다. 이는 결과만 보면 같아도, **판단 과정 (절차)**이 성별에 따라 달랐다는 뜻입니다.
이 논문이 제안하는 해결책 (GCIG):
- 이 논문은 "선생님이 학생을 평가할 때, **성별에 상관없이 같은 기준 (이유)**으로 점수를 매겨야 한다"고 주장합니다.
- 예를 들어, "남학생이든 여학생이든, 수학 실력이 좋으면 점수를 주고, 국어 실력이 좋으면 점수를 주지 않는 방식으로 일관되어야 한다"는 것입니다.
- 이를 위해 AI 가 학습하는 동안, "만약 이 학생이 다른 성별이었다면 설명이 달라졌을까?"를 계속 체크하며 훈련시킵니다.

🔍 핵심 개념 3 가지

1. "절차적 공정성" (Procedural Fairness) 이란?

기존: "결과의 공평함" (누가 이겼는가?)
이 논문: "과정의 공평함" (왜 이겼는가?)
비유: 두 사람이 같은 상을 탔다면, 한 사람은 '노력'으로, 다른 사람은 '연줄'로 탔다면 그 상은 공정한 것이 아닙니다. AI 도 마찬가지입니다. 왜 그 결론에 도달했는지 그 '이유'가 그룹 (성별, 인종 등) 에 따라 달라서는 안 됩니다.

2. "그룹 반사실적 설명" (Group Counterfactual Explanation)

의미: "만약 이 사람이 다른 그룹 (예: 여성) 이었다면, AI 는 이 사람을 어떻게 설명했을까?"
비유: 같은 학생 (A) 에게 대해, "남학생일 때는 '수학 천재'라고 설명했는데, 여학생일 때는 '운이 좋은 학생'이라고 설명했다면?" 이는 AI 가 성별에 따라 다른 선입견을 가지고 있다는 증거입니다.
이 논문은 AI 가 어떤 그룹에 속하든 같은 학생에 대해 똑같은 이유로 설명하도록 훈련시킵니다.

3. "GCIG" (새로운 훈련 방법)

GCIG는 AI 를 훈련시킬 때, 단순히 정답만 맞추게 하는 게 아니라, "이유 설명이 그룹에 따라 흔들리지 않게" 추가 점수를 주거나 빼주는 규칙입니다.
비유: 선생님이 학생을 채점할 때, "성별에 따라 채점 기준이 바뀌면 감점!"이라고 미리 정해두고 훈련시키는 것입니다.

📊 실험 결과: 정말 효과가 있을까?

연구진은 여러 데이터 (신용평가, 재범 위험 예측 등) 로 실험을 했습니다.

결과: 기존 방법들은 '결과'만 공정하게 만들려고 했지만, 이 새로운 방법 (GCIG) 을 쓰니 이유 설명의 불일치가 크게 줄어든 것이 확인되었습니다.
중요한 점: 이유 설명을 공정하게 만들었다고 해서, AI 의 정확도가 떨어지거나 결과가 불공정해진 것은 아닙니다. 오히려 "결과도 공정하고, 이유도 공정하다"는 두 마리 토끼를 다 잡는 데 성공했습니다.

💡 요약: 왜 이 논문이 중요한가?

지금까지 우리는 AI 가 "잘 맞췄는지"만 확인했습니다. 하지만 이 논문은 **"AI 가 왜 그렇게 생각했는지 그 이유도 공정해야 한다"**고 말합니다.

기존: "남녀 모두 80% 합격률을 냈으니 OK!"
이 논문: "잠깐, 남자는 '경력'으로 합격시키고 여자는 '나이'로 합격시켰다면? 이건 불공정해. 이유도 똑같이 만들어줘!"

이 연구는 AI 가 단순히 숫자만 맞추는 기계가 아니라, 모든 사람에게 공정하고 일관된 논리로 설명할 수 있는 신뢰할 수 있는 파트너가 되도록 돕는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 공정한 머신러닝 (Fair ML) 연구는 주로 **결과 중심의 공정성 (Outcome-oriented Fairness)**에 집중해 왔습니다. 대표적으로 'Equalized Odds (EO)'와 같은 지표는 모델의 예측 결과 (예: 오류율) 가 보호 집단 간에 균형을 이루는지에 초점을 맞춥니다.

그러나 이러한 접근법에는 다음과 같은 한계가 있습니다:

결정 과정의 불일치: 두 모델이 동일한 EO 지표를 달성하더라도, 서로 다른 보호 집단에 대해 근본적으로 다른 의사결정 로직 (Feature Attribution) 을 사용할 수 있습니다.
절차적 공정성 (Procedural Fairness) 의 부재: 결과가 공정하더라도, 모델이 특정 집단에 대해 다른 기준이나 논리를 적용하여 예측을 내린다면 신뢰가 훼손됩니다. 즉, "어떻게 (How)" 예측에 도달했는지에 대한 공정성이 무시되고 있습니다.
사후 분석의 한계: 기존 설명 (Explanation) 기반의 공정성 분석은 대부분 학습 후 (Post-hoc) 에 이루어져 편향을 발견할 수는 있지만, 학습 과정에서 이를 방지하지는 못합니다.

따라서 본 논문은 예측 결과의 공정성뿐만 아니라, 보호 집단에 관계없이 일관된 설명 (Reasoning) 을 제공하는 절차적 공정성을 학습 단계에서 강제할 수 있는 프레임워크의 필요성을 제기합니다.

2. 방법론 (Methodology)

저자들은 **Group Counterfactual Integrated Gradients (GCIG)**라는 새로운 정규화 (Regularization) 프레임워크를 제안하여 절차적 공정성을 학습 과정에 통합했습니다.

2.1 핵심 개념: 그룹 조건부 기저 (Group Conditional Baselines)

기존의 통합 기울기 (Integrated Gradients, IG) 는 단일 전역 기저 (Global Baseline) 를 사용하지만, 이는 집단별 특성 분포의 차이를 무시할 수 있습니다. GCIG 는 다음과 같이 작동합니다:

각 레이블 ( $y$ ) 과 보호 집단 ( $g$ ) 에 대해 **그룹 조건부 기저 ( $b_{y,g}$ )**를 정의합니다. 이는 해당 집단과 레이블을 가진 데이터 포인트들의 평균 특성 벡터입니다.
이 기저는 학습 중 EMA(Exponentially Moving Average) 를 통해 안정적으로 추정됩니다.

2.2 그룹 반사실 통합 기울기 (Group Counterfactual IG)

입력 $x$ 에 대해, 모델이 동일한 개인을 다른 집단 ( $g$ ) 의 맥락 (기저 $b_{y,g}$ ) 에서 평가했을 때 어떻게 설명하는지 계산합니다.

IG(g)(x; y): 입력 $x$ 와 그룹 $g$ 의 기저 $b_{y,g}$ 사이의 통합 기울기.
이는 "동일한 결과 ( $y$ ) 를 가진 개인에 대해, 모델이 특정 집단 $g$ 의 기준에 비추어 어떤 특징을 중요하게 여기는가?"를 묻는 반사실적 질문입니다.

2.3 설명 불일치 측정 (Explanation Disparity)

서로 다른 집단 ( $g$ ) 에 대해 계산된 정규화된 설명 벡터 간의 분산 (Variance) 을 계산합니다.
목표: 동일한 레이블을 가진 개인에 대해, 집단 맥락이 바뀌더라도 모델의 설명 (Feature Attribution) 이 일관되어야 합니다. 즉, 집단별 설명 분산을 최소화해야 합니다.

2.4 학습 목적 함수 (Training Objective: FairX)

모델은 예측 성능, 결과 공정성 (EO), 그리고 절차적 공정성 (GCIG) 을 동시에 최적화합니다.
$\min_{\theta} L_{total}(\theta) = L_{pred}(\theta) + \lambda_{ig} L_{GCIG}(\theta) + \lambda_{fair} L_{fair}$

$L_{pred}$ : 예측 손실 (Binary Cross-Entropy).
$L_{GCIG}$ : 그룹 간 설명 분산을 패널티하는 손실 항.
$L_{fair}$ : Equalized Odds 와 같은 결과 공정성 손실.
$\lambda_{ig}, \lambda_{fair}$ : 각 목적의 가중치.

3. 주요 기여 (Key Contributions)

절차적 공정성의 공식화: 보호 집단과 레이블이 고정되었을 때 모델 설명의 불변성 (Invariance) 을 절차적 공정성의 기준으로 정의했습니다.
GCIG 프레임워크 제안: 그룹 조건부 기저를 기반으로 한 통합 기울기를 계산하고, 학습 중 그룹 간 설명 변이를 최소화하는 인-프로세싱 (In-processing) 정규화 방법을 제시했습니다.
실험적 검증: 4 개의 벤치마크 데이터셋 (Adult, German Credit, COMPAS, Bank Marketing) 에서 6 가지 최신 공정성 방법론과 비교하여, GCIG 가 설명 불일치를 크게 줄이면서도 예측 성능과 결과 공정성을 유지함을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: Adult, German Credit, COMPAS, Bank Marketing.
비교 대상: Unconstrained, DIR(Pre-processing), Hardt(Post-processing), Reductions(Agrawal), Adversarial, Lagrangian 등.
주요 성과:
- 설명 불일치 감소: 모든 데이터셋에서 GCIG 지표를 기존 방법론 대비 획기적으로 낮췄습니다. (예: German Credit 에서 0.190 → 0.066, COMPAS 에서 0.193 → 0.034).
- 성능 유지: 절차적 공정성을 강화했음에도 F1 점수와 EO Gap(결과 공정성) 은 기존 최상위 방법론들과 경쟁력 있는 수준을 유지했습니다.
- 결과 공정성과 절차적 공정성의 비연관성: EO Gap 이 낮더라도 GCIG 값은 매우 다를 수 있음을 확인했습니다. 상관관계 분석 결과, 결과 공정성이 절차적 공정성을 설명하는 비율 ( $R^2$ ) 은 약 5.9% 에 불과하여, 두 개념이 별개의 차원임을 입증했습니다.
- Ablation Study: 결과 공정성만 적용하면 절차적 공정성이 오히려 악화될 수 있으나, GCIG 를 추가하면 시너지 효과가 발생하여 절차적 공정성이 크게 개선됨을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

공정성의 다차원적 접근: 이 연구는 머신러닝 공정성이 단순히 "결과가 공정한지"를 넘어 "결정에 이르는 과정 (Reasoning) 이 공정한지"를 다뤄야 함을 강조합니다.
신뢰성 향상: 서로 다른 보호 집단에 대해 일관된 논리와 설명을 제공하는 모델은 사용자의 신뢰를 높이고, 편향된 의사결정 로직을 사전에 차단할 수 있습니다.
실용성: 학습 단계에서 설명 일관성을 정규화항으로 포함시킴으로써, 사후 감사 (Audit) 가 아닌 예방적 공정성 확보가 가능해졌습니다.
한계 및 향후 과제: 현재 이진 보호 속성과 표형 (Tabular) 데이터에 국한되어 있으며, 통합 기울기 계산으로 인한 학습 오버헤드가 존재합니다. 향후 다중 집단, 텍스트/이미지 데이터, 그리고 더 효율적인 속성 기법으로의 확장이 필요합니다.

요약하자면, 본 논문은 모델이 특정 집단에 대해 다른 논리를 적용하는 것을 방지하기 위해, '그룹 반사실 설명'을 기반으로 한 새로운 정규화 기법을 도입하여 공정성의 범위를 결과에서 과정으로 확장한 선구적인 연구입니다.