Counterfactual Explanations on Robust Perceptual Geodesics

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "AI 의 눈으로 본 지도와 길 찾기"

상상해 보세요. AI 가 세상을 볼 때, 우리 눈에는 보이지 않는 거대한 지도가 있다고 칩시다. 이 지도에는 '고양이'가 사는 마을과 '개'가 사는 마을이 있습니다.

기존의 AI 설명 방법들은 이 지도를 잘못 이해하고 있었습니다.

기존 방법의 문제 (뚫린 지름길): "고양이 사진을 개 사진으로 바꾸려면?"이라고 물으면, 기존 AI 는 지도의 지름길을 찾아냅니다. 하지만 이 지름길은 지도 밖으로 나가버리는 경우가 많습니다. (예: 고양이의 귀를 뚝 잘라버리거나, 피부색을 비정상적으로 변색시키는 등). 이는 AI 가 "아, 이걸로 분류가 바뀌네!"라고 착각하게 만드는 **허위 신호 (Adversarial Attack)**일 뿐, 실제 개가 아닙니다.
새로운 방법 (PCG): 이 논문은 **"Robust Perceptual Geodesics(견고한 지각 지선)"**라는 새로운 나침반을 개발했습니다. 이 나침반은 AI 가 아니라 사람의 눈과 뇌가 세상을 어떻게 인식하는지를 기준으로 길을 잡습니다.

🚗 구체적인 이야기: "고양이에서 개로 변신하기"

이제 이 비유를 실제 상황에 적용해 보겠습니다.

1. 문제 상황: 엉뚱한 길로 가는 차 (기존 방법)

기존의 AI 설명 도구들은 고양이를 개로 바꾸고 싶을 때, 지도의 평평한 직선을 따라 갑니다.

결과: 차가 도로 (데이터의 자연스러운 흐름) 를 벗어납니다.
현상: 고양이의 얼굴이 길어지거나, 눈이 비틀어지거나, 털이 이상하게 날리는 등 불자연스러운 변형이 생깁니다.
비유: "고양이를 개로 바꾸자!"라고 해서 고양이의 귀를 잘라내고 코를 찌그러뜨린 결과, AI 가 "아, 이건 개네!"라고 착각하는 상황입니다. 하지만 사람 눈에는 여전히 기괴한 고양이일 뿐입니다.

2. 새로운 해결책: PCG (이 논문의 방법)

저자들은 **"AI 가 속지 않는 튼튼한 지도"**를 만들었습니다. 이 지도는 AI 가 공격에 약한 부분 (예: 픽셀의 미세한 변화) 을 무시하고, **사람이 실제로 중요하게 여기는 특징 (귀 모양, 털 결, 얼굴 구조)**을 따라 길을 안내합니다.

두 단계 과정:
1. 1 단계 (길 찾기): 고양이 마을에서 개 마을까지, 자연스러운 길을 그립니다. 중간에 차가 도로를 벗어나지 않도록 부드럽게 연결합니다.
2. 2 단계 (최종 도착): 그 길 위에서, 고양이와 가장 비슷한 개를 찾습니다. 너무 멀리 가지도, 너무 가깝지도 않게 최적의 지점을 찾습니다.
결과: 고양이의 귀 모양이 조금씩 변하고, 털 결이 바뀌면서 자연스럽게 개로 변합니다. 중간 과정에서도 "아, 이건 고양이에서 개로 변하는 과정이구나"라고 사람이 이해할 수 있습니다.

💡 왜 이것이 중요한가요?

이 논문의 핵심 메시지는 **"진짜 설명은 사람이 이해할 수 있어야 한다"**는 것입니다.

기존의 문제: AI 가 "이 픽셀을 0.01 만큼 바꾸면 개로 바뀐다"고 말하면, 그것은 기술적으로는 맞지만 사람에게는 아무런 의미가 없습니다. (마치 "이 약을 0.001mg 더 먹으면 병이 낫는다"고 하지만, 실제로는 그 양은 아무 효과도 없는 것처럼요.)
이 논문의 기여: AI 가 **"고양이의 귀를 조금 더 뾰족하게 하고, 턱선을 넓히면 개가 됩니다"**라고 설명해 줍니다. 이는 사람이 상상할 수 있는 의미 있는 변화입니다.

🏆 요약: 이 논문이 한 일

나쁜 길 (Adversarial) 을 막았다: AI 가 속아 넘어가는 기만적인 길 (도로 밖으로 나가는 길) 을 막았습니다.
좋은 길 (Geodesic) 을 만들었다: 사람의 눈과 뇌가 자연스럽게 인식하는 부드러운 길을 만들었습니다.
결과: AI 가 왜 그런 판단을 내렸는지, 그리고 어떻게 바꾸면 다른 판단을 내릴지를 사람이 이해할 수 있는 방식으로 보여줍니다.

한 줄 요약:

"이 논문은 AI 가 이미지를 바꿀 때, 기괴한 변형 없이 사람이 자연스럽게 이해할 수 있는 길을 찾아주는 새로운 나침반을 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경:
반사실적 설명 (Counterfactual Explanations, CE) 은 모델의 예측을 변경하기 위해 입력 데이터에 필요한 최소한의 의미 있는 변화 (semantic perturbation) 를 찾는 것을 목표로 합니다. Wachter et al. (2017) 의 정형화된 최적화 문제 (유사성 거리 + 분류 손실) 는 널리 사용되지만, 거리 메트릭 (distance metric) 의 선택에 따라 결과가 의미 있는 설명이 될 수도 있고, 적대적 예제 (Adversarial Examples, AE) 가 될 수도 있는 모호성을 내포하고 있습니다.

기존 방법의 한계:
기존의 잠재 공간 (latent space) 최적화 기반 CE 방법들은 다음과 같은 근본적인 결함을 가지고 있습니다.

매니폴드 이탈 (Off-manifold Traversal): 데이터가 존재하는 저차원 매니폴드 (manifold) 의 기하학적 구조를 무시하고 유클리드 공간에서 최적화를 수행하여, 실제 데이터 분포에 존재하지 않는 비현실적인 이미지 (off-manifold artifacts) 를 생성합니다.
국소적 최적화 (Local Gradient Optimization): 전역적인 매니폴드 구조를 고려하지 않는 단일 점 기반의 그라디언트 최적화는 국소적으로 수렴하여 의미론적으로 먼 반사실적 예제나, 매니폴드 위에 존재하지만 의미 없는 적대적 예제 (on-manifold AEs) 로 수렴하는 경향이 있습니다.
취약한 거리 메트릭: 픽셀 단위 $\ell_2$ 거리나 표준 분류기 (non-robust classifier) 의 특징 공간 메트릭은 인간의 지각과 불일치하며, 적대적 공격에 취약합니다. 이로 인해 의미 있는 변화와 적대적 교란을 구분하지 못합니다.

핵심 질문:
"어떻게 하면 반사실적 설명이 인간의 지각과 일치하며, 데이터 매니폴드 위에 존재하고, 의미론적으로 타당한 경로 (geodesic) 를 따라 생성될 수 있을까?"

2. 제안 방법: 지각적 반사실적 측지선 (Perceptual Counterfactual Geodesics, PCG)

저자들은 PCG를 제안하여 위 문제들을 해결합니다. PCG 는 강건한 (robust) 비전 모델에서 유도된 **리만 계량 (Riemannian metric)**을 사용하여 잠재 공간에서 **측지선 (geodesic)**을 추적하는 방식입니다.

2.1 핵심 아이디어: 강건한 지각적 메트릭 (Robust Perceptual Metric)

강건한 특징 공간 활용: 표준 분류기 대신 **적대적 훈련 (adversarially trained)**된 비전 모델 (예: Robust ResNet-50) 의 중간 레이어 활성화 값을 사용합니다. 강건한 모델은 인간의 지각과 일치하는 그라디언트를 가지며, 고주파수 노이즈나 의미 없는 특징에 덜 민감합니다.
복합 풀백 메트릭 (Composite Pullback Metric): 생성기 (Generator, $g$ ) 를 통해 이미지 공간 ( $X$ ) 의 강건한 특징 공간에서 유도된 유클리드 메트릭을 잠재 공간 ( $Z$ ) 으로 '풀백 (pullback)'하여 리만 계량 $G_Z(z)$ 를 정의합니다.
$G_Z(z) = J_g(z)^\top G_R(g(z)) J_g(z)$
여기서 $G_R$ 은 강건한 특징 공간에서 정의된 메트릭이며, $J_g$ 는 생성기의 야코비안입니다. 이 메트릭은 취약한 방향에는 높은 비용을 부과하고, 지각적으로 매끄러운 방향에는 낮은 비용을 부과합니다.

2.2 최적화 프레임워크 (Two-Stage Optimization)

PCG 는 입력 $x^*$ 에서 목표 클래스 $y'$ 까지의 잠재 공간 경로 $\gamma(t)$ 를 최적화합니다.

Phase 1: 강건한 측지선 구성 (Robust Geodesic Construction)
- 입력의 잠재 코드 $z_0$ 와 임의의 목표 클래스 샘플의 잠재 코드 $z_T$ 를 고정합니다.
- **강건한 에너지 (Robust Energy)**를 최소화하여 두 점 사이의 최단 경로 (측지선) 를 찾습니다. 이는 강건한 특징 공간에서의 변화가 매끄럽고 일관되도록 보장합니다.
- 목적 함수: $E_{robust}(z) = \frac{1}{2} \sum \|\text{feature\_diff}\|^2$
Phase 2: 분류 제약 하의 정제 (Endpoint-aware Refinement)
- $z_T$ 를 고정하지 않고, 경로 전체와 종단점을 함께 최적화합니다.
- **분류 손실 (Classification Loss)**을 추가하여 최종 점이 목표 클래스로 분류되도록 합니다.
- 재앵커링 (Re-anchoring) 전략: 최적화 과정에서 목표 클래스로 분류되는 점 중 입력과 가장 가까운 점을 새로운 종단점으로 설정하고 경로를 재구성합니다. 이를 통해 최적의 반사실적 예제 (가장 입력과 유사하면서도 목표 클래스인 점) 를 찾습니다.

3. 주요 기여 (Key Contributions)

PCG 알고리즘 제안: STYLEGAN2/3 생성기의 잠재 공간에 강건한 리만 계량을 도입하고, 이를 통해 반사실적 경로를 생성하는 새로운 방법론을 제시했습니다.
지각적 측지선 보간 (Perceptual Geodesic Interpolation): 제안된 강건한 메트릭 하에서 샘플 간의 보간이 매끄럽고 의미론적으로 일관된 (semantic coherence) 결과를 산출함을 증명했습니다. 기존 방법들은 보간 중 클래스가 모호해지거나 텍스처가 왜곡되는 반면, PCG 는 매니폴드 위를 안전하게 이동합니다.
실험적 검증: AFHQ, FFHQ, PlantVillage 등 3 개의 고차원 이미지 데이터셋에서 기존 방법 (REVISE, VSGD, RSGD 등) 보다 우수한 성능을 보였습니다. 특히 강건한 거리 메트릭 (LR) 하에서 기존 방법들이 숨겨진 실패 모드 (on-manifold AEs) 를 보임을 드러냈습니다.

4. 실험 결과 (Results)

4.1 정성적 결과 (Qualitative)

보간 실험 (Figure 2): PCG 는 강건한 메트릭을 사용하여 클래스 간 전환 시 중간 단계에서도 자연스러운 외형과 일관된 의미를 유지합니다. 반면, 유클리드 거리나 표준 특징 메트릭을 사용한 방법들은 중간 단계에서 클래스가 모호해지거나 (class ambiguity), 불필요한 왜곡 (warping) 이 발생합니다.
반사실적 생성 (Figure 4): PCG 는 입력과 가장 유사하면서 목표 클래스로 변경된 이미지를 생성합니다. 기존 방법들 (RSGD, VSGD 등) 은 종종 매니폴드 이탈 (off-manifold) 이나 의미론적 붕괴 (semantic drift) 를 보이며, 이는 적대적 예제에 해당합니다.

4.2 정량적 결과 (Quantitative)

거리 지표 (Table 1): PCG 는 픽셀 단위 ( $L_1, L_2$ ) 뿐만 아니라, **강건한 특징 공간 기반 거리 ( $L_F, L_R$ )**에서도 가장 낮은 값을 기록했습니다. 이는 생성된 이미지가 인간 지각과 강건한 모델 관점에서 원본에 가장 가깝다는 것을 의미합니다.
현실성 및 매니폴드 정렬 (Table 2):
- R-FID (Robust FID): PCG 는 가장 낮은 점수를 기록하여 생성된 분포가 실제 목표 클래스 분포와 강건한 특징 공간에서 가장 유사함을 보여줍니다.
- Mean Semantic Margin (SM): PCG 는 목표 클래스의 특징 공간 영역에 명확히 위치하는 반면, 기존 방법들은 혼합된 영역에 머무는 경향이 있었습니다.
- Manifold Alignment Score (MAS): PCG 는 강건한 특징 공간의 접선 방향 (tangent direction) 에 가장 잘 정렬되어 있습니다.

5. 의의 및 결론 (Significance & Conclusion)

적대적 예제와 반사실적 설명의 명확한 구분: 저자들은 거리 메트릭의 선택이 반사실적 설명과 적대적 예제를 구분하는 핵심 요소임을 재확인했습니다. 특히 강건한 (robust) 메트릭을 도입함으로써 의미 있는 변화와 적대적 교란을 구분할 수 있음을 보였습니다.
기하학적 재해석: 반사실적 설명 생성을 단순한 최적화 문제가 아닌, 데이터 매니폴드 위의 강건한 측지선 탐색 문제로 재정의했습니다. 이는 고차원 이미지 데이터에서 발생하는 매니폴드 이탈 및 의미론적 붕괴 문제를 근본적으로 해결합니다.
평가 지표의 중요성: 기존에 널리 쓰이던 $L_2$ 나 표준 FID 는 적대적 취약성을 감지하지 못하며, **강건한 거리 메트릭 ( $L_R$ , R-FID)**이 반사실적 설명의 품질을 평가하는 더 신뢰할 수 있는 지표임을 강조했습니다.

이 연구는 해석 가능한 AI (XAI) 분야에서, 특히 고차원 비전 모델에 대한 신뢰할 수 있는 반사실적 설명을 생성하기 위해 **강건성 (Robustness)**과 **기하학 (Geometry)**을 통합하는 새로운 패러다임을 제시합니다.