Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이런 연구가 필요할까요?

요즘 AI 는 대출 승인, 채용, 범죄 예측 등 중요한 결정을 내립니다. 하지만 AI 가 특정 인종이나 성별을 차별하면 큰 문제가 됩니다. 그래서 유럽 등에서는 AI 를 만들기 전에 **"공정성 감사 (Audit)"**를 의무화하고 있습니다.

현실: AI 개발자 (감시당) 가 검사관에게 "우리의 AI 는 공정합니다"라고 말하며 **데이터 샘플 (일부 자료)**을 보여줍니다.
문제: 검사관은 전체 데이터를 다 볼 수 없고, 개발자가 준 일부 자료만 보고 판단합니다.

2. 핵심 문제: "공정성의 환상 (Illusion of Fairness)"

이 논문은 **"악의적인 개발자가 어떻게 하면, 실제로는 차별적인 AI 임에도 불구하고, 검사관에게만 보이는 데이터만은 공정해 보이게 조작할 수 있는지"**를 분석했습니다.

이를 **"페어워싱 (Fairwashing, 공정세척)"**이라고 부릅니다.

비유:
- 실제 상황: 식당이 식중독이 난 재료로 요리를 하고 있습니다 (차별적인 AI).
- 조작: 검사관이 오기 직전, 식중독이 난 재료만 골라내고 최고급 신선한 재료만 접시에 담아 검사관에게 보여줍니다.
- 결과: 검사관은 "와, 이 식당은 정말 깨끗하고 안전하네!"라고 판단하지만, 실제 식당은 여전히 위험합니다.

이 논문은 개발자가 어떤 수학적 기법을 쓰면, 전체 데이터는 나쁜데도 보여주는 데이터만은 완벽하게 공정해 보이게 만들 수 있는지, 그리고 그 최소한의 변화가 얼마나 작은지 계산했습니다.

3. 개발자가 쓰는 속임수 (공격 방법)

논문은 개발자가 사용할 수 있는 두 가지 주요 수학적 무기를 소개합니다.

엔트로피 투영 (Entropic Projection):
- 비유: "데이터의 무게를 살짝 조정하는 것"입니다.
- 전체 데이터의 분포를 크게 바꾸지 않으면서, 특정 그룹의 '합격' 확률만 살짝 높여 공정성 점수를 올리는 방법입니다. 마치 저울의 무게를 미세하게 조절해서 저울이 평형을 이루게 만드는 것과 같습니다.
최적 수송 (Optimal Transport):
- 비유: "데이터 포인트들을 이동시키는 것"입니다.
- 차별받는 그룹의 사람들을 '합격' 영역으로, 혹은 '불합격' 영역으로 물리적으로 이동시켜 분포를 바꿉니다. 이때 **원래 데이터와 얼마나 멀리 이동했는지 (거리)**를 최소화하면서 공정성 점수만 높이는 전략을 사용합니다.

결과: 놀랍게도, 이 방법들을 사용하면 통계적 검사 (감시관) 가 알아채기 힘들 정도로 데이터의 분포를 거의 바꾸지 않으면서도, 공정성 점수는 0.3(심각한 차별) 에서 0.8(완벽한 공정) 로 뻥튀기할 수 있었습니다.

4. 감시관의 대응책: 속임수를 잡아내는 방법

이제 감시관 (규제 기관) 은 어떻게 해야 할까요?

단순한 샘플은 믿지 마세요: 개발자가 준 데이터가 전체를 대표하는지 확인해야 합니다.
통계적 검사 도구: 논문은 개발자가 데이터를 조작했을 때, 원래 데이터와 얼마나 다른지를 측정하는 7 가지 통계 검사 (KL 발산, 워터스톤 거리 등) 를 제안합니다.
- 비유: 개발자가 포장만 바꿨다고 해서 속을 안 믿는 것처럼, **데이터의 '냄새' (분포)**가 원래 것과 같은지 과학적으로 검사하는 것입니다.

5. 중요한 발견: "샘플 크기"가 핵심입니다

이 논문이 내린 가장 중요한 결론은 다음과 같습니다.

작은 샘플은 속임수에 취약합니다: 개발자가 보여준 데이터가 10% 정도라면, 속임수를 잡아내기 매우 어렵습니다.
큰 샘플은 속임수를 막습니다: 하지만 데이터 양을 20% 이상으로 늘리면, 개발자가 공정성 점수를 조작하기 위해 데이터를 너무 많이 바꿔야 하므로, 통계 검사에 걸릴 확률이 급격히 높아집니다.

결론: "작은 샘플을 보여달라고 하면 속임수를 당하기 쉽고, 충분히 큰 샘플을 요구해야 진짜 공정한지 확인할 수 있다"는 것입니다.

6. 요약: 우리가 배울 점

이 논문은 **"AI 가 공정하다고 말하는 것을 맹신하면 안 된다"**는 경고를 줍니다.

악의적인 개발자는 수학적 기법을 써서 공정성 점수만 조작할 수 있습니다.
규제 기관은 개발자가 준 작은 데이터만 믿지 말고, 충분히 큰 데이터를 요구해야 합니다.
통계적 검사 도구를 활용하여, 보여준 데이터가 전체를 진짜로 대표하는지 확인해야 합니다.

마치 **"시험을 볼 때, 문제지 일부만 보여주고 '전부 다 맞췄어요'라고 하는 학생을 믿지 말고, 전 과목을 다 보게 해야 한다"**는 것과 같은 이치입니다. 이 연구를 통해 더 튼튼하고 신뢰할 수 있는 AI 감사 시스템이 만들어지기를 바라고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: EU AI 법 (Regulation (EU) 2024/1689) 등 규제 강화로 인해 AI 모델의 공정성 감사 (Auditing) 가 필수화되었습니다. 특히 이진 분류기 (Binary Classifier) 에서는 차별적 영향 (Disparate Impact, DI) 비율과 같은 전역적 (Global) 공정성 지표를 사용하여 편향을 평가합니다.
감사 프로세스:
1. 감사 대상 (Auditee): 전체 데이터셋을 보유하고 있으나, 감사인에게 데이터의 일부 샘플 ( $D_n$ ) 만 제출합니다.
2. 감사인 (Auditor): 제출된 샘플을 기반으로 공정성 지표를 계산하여 규제 준수 여부를 판단합니다.
3. 감독 기관 (Supervisory Authority): 전체 데이터 ( $Q_n$ ) 에 접근할 수 있으며, 제출된 샘플이 전체 분포를 대표하는지 (Representativeness) 를 검증할 책임이 있습니다.
핵심 문제: 악의적인 감사 대상자가 원래 데이터의 분포와 통계적으로 구별하기 어렵게 유지하면서, 제출된 샘플의 공정성 지표 (예: DI $\ge$ 0.8) 만을 인위적으로 높이는 '페어워싱 (Fair-washing)' 공격이 가능합니다. 이는 공정성 위반을 숨기고 규제 준수를 가장하는 '공정성의 환상'을 만들어냅니다.

2. 방법론 (Methodology)

저자들은 악의적인 공격 시나리오를 시뮬레이션하고 이를 탐지하는 방법을 제안합니다.

A. 악의적 공격 전략 (Malicious Auditee Strategies)

감사 대상자가 원래 분포 $Q_n$ 에서 공정성 제약 조건을 만족하면서 KL 발산 (KL Divergence) 또는 Wasserstein 거리 (Optimal Transport) 를 최소화하는 새로운 분포 $Q_t$ 를 찾는 최적화 문제로 정의합니다.

엔트로피 투영 (Entropic Projection):
- KL 발산을 최소화하면서 특정 평균 제약 (공정성 조건) 을 만족하는 분포를 생성합니다.
- Balanced 및 Proportional 두 가지 변형으로, 각 클래스의 샘플을 재가중치 (reweighting) 하여 분포를 변형합니다.
최적 수송 (Optimal Transport / Monge-Kantorovich Projection):
- Wasserstein 거리를 최소화하며 분포를 이동시킵니다.
- Gradient-based 방법: 신경망의 출력을 미분 가능한 값으로 간주하여 경사 하강법을 통해 데이터를 변형합니다.
- Replace 및 Matching 방법: 민감 속성 ( $S$ ) 과 예측 결과 ( $\hat{Y}$ ) 만을 교체하거나, 기존 데이터 포인트를 다른 포인트로 매칭하여 분포를 변경합니다. 이는 모델 접근 권한이 없는 '블랙박스' 상황에서도 작동합니다.

B. 감독 기관의 탐지 전략 (Detection Strategies)

감사 대상자가 조작된 샘플을 제출했을 때, 이를 통계적 검정을 통해 탐지하는 방법을 연구합니다.

분포 기반 통계 검정: 제출된 샘플 ( $D_n$ ) 과 전체 데이터 ( $Q_n$ ) 가 동일한 분포에서 추출되었는지 검증합니다.
사용된 거리 측정 및 검정:
- KL 발산 (KL Divergence): 확률 분포 간의 차이 측정.
- Wasserstein 거리 (W2): 지리학적 거리 기반의 분포 차이 측정.
- 최대 평균 불일치 (MMD): 커널 기반의 분포 비교.
- 콜모고로프 - 스미르노프 (KS) 검정: 1 차원 분포 비교.
검증 로직: 조작된 분포와 원본 분포 간의 거리가 통계적 임계값 (신뢰 구간) 을 초과하는지 확인합니다.

3. 주요 기여 (Key Contributions)

공정성 조작의 수학적 형식화: 감사 대상자가 공정성 제약을 만족시키면서 원본 분포와 통계적으로 구별하기 어려운 샘플을 생성하는 문제를 제약된 분포 투영 (Constrained Distributional Projection) 문제로 정의하고, 엔트로피 및 최적 수송 기반의 구체적인 공격 알고리즘을 제시했습니다.
탐지 가능성 분석: 다양한 통계 검정 (KL, Wasserstein, KS, MMD) 을 사용하여 조작된 샘플이 탐지되지 않고 통과할 수 있는 조건을 체계적으로 분석했습니다.
실증적 검증: Adult, Folktables, Bank Fraud 등 7 개의 표준 테이블 데이터셋과 CelebA(이미지) 데이터셋을 사용하여 이론적 결과를 검증했습니다.
규제 가이드라인 제시: 감사의 신뢰성을 높이기 위한 실용적인 권고사항 (샘플 크기 확대, 다중 검정 병행 등) 을 제시했습니다.

4. 실험 결과 (Results)

공격의 성공 가능성:
- MW (Matching with Wasserstein) 및 Entropic 기반 방법은 원본 데이터의 분포를 크게 변경하지 않으면서 DI 를 0.8 이상으로 높일 수 있었습니다.
- 특히 INC, TRA, BAF 데이터셋과 같이 원본 DI 가 이미 높거나 긍정적 클래스 비율이 낮은 경우, 조작이 통계적 검정을 통과하기 매우 쉬웠습니다.
- Replace 방법 (민감 속성과 예측값만 교체) 은 입력 특징 ( $X$ ) 을 변경하지 않아 $X$ 기반의 검정 (Wasserstein on X) 에서는 100% 탐지되지 않았으나, $S, \hat{Y}$ 기반 검정에는 취약했습니다.
샘플 크기의 중요성:
- 샘플 크기가 작을수록 (예: 10%) 조작된 분포가 원본과 구별되지 않고 통과할 확률이 급격히 증가했습니다.
- 샘플 크기가 커질수록 (예: 20% 이상) 탐지 가능성이 크게 높아졌습니다. 이는 통계적 검정의 검정력 (Power) 이 샘플 크기에 비례하기 때문입니다.
비표형 데이터 (이미지) 로의 확장:
- CelebA 데이터셋 실험에서, 픽셀 공간이 아닌 잠재 공간 (Latent Space, 예: ResNet101) 에서 통계 검정을 수행하는 것이 조작을 더 효과적으로 탐지할 수 있음을 보였습니다.
- 하지만 공격자가 감사인이 사용하는 잠재 공간의 특성을 알고 있다면, 해당 공간에 최적화된 조작으로 탐지를 우회할 수 있음을 시사했습니다.

5. 의의 및 결론 (Significance & Conclusion)

감사 시스템의 취약성 폭로: 현재 널리 사용되는 전역적 공정성 지표는 감사 대상자가 제출하는 샘플에 의존하므로, 악의적인 조작이 가능하다는 것을 증명했습니다. 이는 "공정성 준수"가 실제 시스템의 공정성을 보장하지 않을 수 있음을 의미합니다.
규제적 시사점:
1. 샘플 크기 확대: 감사 대상자가 임의로 선택한 작은 샘플에 의존하지 말고, 통계적 검정이 유효할 만큼 충분히 큰 샘플을 요구해야 합니다.
2. 다중 검정 병행: 단일 검정 (예: KS) 만으로는 부족하며, KL, Wasserstein, MMD 등 서로 다른 특성을 가진 여러 검정을 조합하여 사용해야 조작을 탐지할 수 있습니다.
3. 전체 데이터 접근 권한: 감독 기관은 가능한 경우 전체 데이터에 접근하거나, 감사 대상자가 제출한 샘플이 대표성을 갖는지 독립적으로 검증할 수 있는 권한을 가져야 합니다.
미래 방향: 이 연구는 AI 감사와 규제 프레임워크를 더욱 견고하게 만들기 위해, '공정성'이 단순히 지표 수치로 평가되는 것이 아니라 데이터 분포의 대표성과 무결성을 함께 검증해야 함을 강조합니다.

이 논문은 AI 윤리 및 규제 분야에서 "공정성 감사"가 단순한 형식적 절차가 아니라, 악의적 공격에 대비한 엄격한 통계적 검증 과정이어야 함을 강력하게 주장합니다.