Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 왜 그런 판단을 내렸는지, 그 진짜 이유를 찾아내는 새로운 방법"**을 소개합니다. 복잡한 기술 용어 대신, 일상적인 비유를 들어 쉽게 설명해 드릴게요.

🕵️‍♂️ 핵심 문제: AI 는 속임수에 잘 걸립니다

우리가 AI(머신러닝) 를 가르칠 때, 보통 "정답"만 알려주지, "왜 그 정답인지"는 가르치지 않습니다. 그래서 AI 는 가끔 우리가 의도하지 않은 엉뚱한 단서를 보고 정답을 맞힙니다.

예를 들어 들어볼까요?

상황: AI 에게 '5'와 '8'이라는 숫자를 구별하는 법을 가르칩니다.
속임수: 훈련 데이터에서는 '5'는 무조건 빨간색, '8'은 무조건 초록색으로만 주어졌습니다.
결과: AI 는 숫자의 '모양'을 보고 구분하는 게 아니라, '색깔'만 보고 "아, 빨간색이니까 5 구나!"라고 외칩니다.
위험: 실제 세상 (실전) 에 나가서 검은색으로 된 '5'와 '8'을 보면 AI 는 당황해서 틀린 답을 내놓을 수 있습니다. 이를 **'편향 (Bias)'**이라고 합니다.

기존에 AI 가 어디를 보고 판단하는지 알려주는 '주목도 지도 (Saliency Map)'라는 기술도 있지만, 색깔과 모양이 겹쳐 있는 경우엔 AI 가 속은 이유를 정확히 찾아내지 못해 헷갈릴 때가 많습니다.

💡 이 논문의 해결책: "CLIP 이라는 명탐정"을 고용하다

저자들은 AI 의 속마음을 꿰뚫어 보기 위해 CLIP이라는 거대하고 똑똑한 AI 모델을 이용합니다. CLIP 은 "이미지"와 "문장 (캡션)"을 서로 연결해서 이해하는 능력을 가진 슈퍼 AI 입니다.

1. 수술 (Network Surgery) 이라는 기발한 아이디어

이 논문은 두 개의 AI 를 섞는 수술을 제안합니다.

환자: 우리가 의심하는 AI (빨간색/초록색에 속은 AI).
의사: CLIP (이미지와 문장을 잘 이해하는 AI).

저자들은 CLIP 의 뇌 (이미지 인식 부분) 에, 의심받는 AI 의 뇌 (특정 층) 를 조금씩 갈아 넣습니다. 마치 CLIP 이 의심받는 AI 의 "눈"을 잠시 빌려 쓰는 것과 같습니다.

2. 캡션 (문장) 으로 속마음 드러내기

수술이 끝난 후, CLIP 에게 여러 가지 문장을 보여줍니다.

"이건 빨간색 숫자야."
"이건 초록색 숫자야."
"이건 모양이 5 인 숫자야."

CLIP 은 "아, 이 이미지는 '빨간색'이라는 문장과 가장 잘 어울리네!"라고 반응합니다. 이때 반응이 가장 큰 문장이 바로 AI 가 실제로 보고 있는 핵심 단서입니다.

결과: 의심받는 AI 는 '모양'이 아니라 **'빨간색/초록색'**이라는 문장과 가장 잘 반응했습니다.
의미: "아! 이 AI 는 숫자 모양을 보고 판단하는 게 아니라, 색깔만 보고 판단하고 있구나!"라고 바로잡을 수 있게 된 것입니다.

🛠️ 실제 효과: 편향을 고쳐보자

이 방법으로 AI 가 "색깔"에 집착하고 있다는 것을 발견하면, 우리는 다음과 같이 고칠 수 있습니다.

데이터 정제: 숫자 이미지의 색깔을 모두 회색조 (Grayscale) 로 바꿉니다.
재학습: AI 가 색깔을 볼 수 없게 만들었으니, 어쩔 수 없이 숫자의 모양을 보게 됩니다.
검증: 다시 같은 수술 (수술 + CLIP) 을 해보면, 이제는 AI 가 "빨간색"이 아니라 **"모양"**이라는 문장과 가장 잘 반응합니다.

이제 AI 는 실전에서도 색깔이 바뀌어도 숫자를 정확히 맞출 수 있게 되어 튼튼해졌습니다 (Robustness).

🌟 요약: 왜 이 연구가 중요할까요?

진짜 이유 찾기: AI 가 "무엇을 보고" 판단하는지, 특히 색깔 같은 헛된 단서에 속아 넘어가는지 정확히 찾아냅니다.
의료 등 고위험 분야에 필수: 예를 들어, AI 가 암을 진단할 때 "환자의 피부색"이나 "촬영 장비의 종류" 같은 엉뚱한 단서로 판단하면 안 됩니다. 이 기술은 그런 치명적인 실수를 미리 찾아내 줍니다.
단순한 디버깅을 넘어: 이 기술은 AI 를 고치는 도구일 뿐만 아니라, AI 를 실세에 투입하기 전 반드시 거쳐야 하는 필수 검사가 되어야 한다고 주장합니다.

한 줄 요약:

"AI 가 숫자 모양을 보고 판단하는지, 아니면 색깔만 보고 속고 있는지, 문장 (캡션) 을 통해 AI 의 뇌를 직접 읽어내는 새로운 수술법을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

ML 모델의 견고성 (Robustness) 과 설명 가능성 (XAI): 기계학습 (ML) 모델의 핵심 과제는 예측 성능뿐만 아니라 그 행동 원리를 이해하고 견고성을 확보하는 것입니다. 특히 컴퓨터 비전 분야에서 모델이 학습 데이터와 다른 분포 (Covariate Shift) 를 가진 실제 환경에서 실패하는 것을 방지하는 것이 중요합니다.
기존 Saliency Map 의 한계: 기존 XAI 방법론인 Saliency Map(주목도 지도) 은 모델이 가장 반응하는 픽셀 영역을 시각화합니다. 그러나 중첩된 픽셀 공간에 우연적 (spurious) 특징과 중요한 (salient) 특징이 공존할 경우, 이 방법은 모델을 오도할 수 있습니다. 예를 들어, 모델이 객체의 '형태'가 아닌 '색상' 같은 우연한 특징에 의존하여 학습했을 때, Saliency Map 은 이를 명확히 구분해 내지 못할 수 있습니다.
연구 목표: 본 논문은 다중 모달 (Multimodal) 환경에서 모델이 예측에 가장 크게 기여하는 우세한 개념 (Dominant Concept) 을 식별하여, 배포 전 모델의 편향 (Bias) 과 공변량 이동 (Covariate Shift) 을 탐지하는 새로운 방법을 제안합니다.

2. 제안된 방법론 (Methodology)

논문은 CLIP(Contrastive Language-Image Pre-training) 모델과 네트워크 수술 (Network Surgery) 기법을 결합한 캡션 기반 XAI(Caption-Driven XAI) 를 제안합니다.

가. 아키텍처 및 네트워크 수술 (Architecture & Network Surgery)

핵심 아이디어: 설명 대상이 되는 독립적인 모델 (Standalone Model, 예: ResNet-50) 의 특성을 CLIP 모델의 이미지 인코더에 이식하여, CLIP 의 강력한 텍스트 - 이미지 정합 능력을 활용해 모델의 내부 개념을 해석합니다.
구체적 과정:
1. 모델 구성: 설명 대상 모델 (ResNet-50, ImageNet 사전 학습 후 MNIST 이진 분류 미세 조정) 과 CLIP 이미지 인코더 (수정된 ResNet-52) 를 사용합니다.
2. 활성화 맵 매칭 (Activation Matching): 두 모델 간의 활성화 맵 (Activation Maps) 수의 불균형 (Standalone: 22,720 개 vs CLIP: 3,840 개) 을 해결하기 위해 통계적 정합 과정을 거칩니다.
  - 스케일링: 두 모델의 활성화 맵 크기를 일치시키기 위해 이선형 보간 (Bilinear Interpolation) 을 적용하고, 표준 스코어 (Standard Scaler) 를 사용하여 정규화합니다.
  - 상관관계 계산: 정규화된 활성화 맵 간의 상관관계 (Correlation Coefficient) 를 계산하여 유사도 점수 행렬을 생성합니다.
3. 스왑 (Swapping): 유사도가 가장 높은 활성화 맵 쌍을 찾아, CLIP 이미지 인코더의 특정 레이어 (Stage 2~5 의 마지막 레이어) 를 독립 모델의 활성화 맵으로 교체합니다. (1 단계 레이어는 저수준 개념이 유사하므로 교체하지 않음).

나. 편향 탐지 프로세스

캡션 (Caption) 활용: CLIP 의 텍스트 인코더를 사용하여 이미지 내 우세한 개념을 설명하는 텍스트 (예: "빨간색", "초록색", "숫자 5 의 모양", "숫자 8 의 모양") 를 생성합니다.
코사인 유사도 분석: 네트워크 수술이 적용된 모델에 대해 다양한 캡션과 이미지의 코사인 유사도 (Cosine Similarity) 를 계산합니다.
- 만약 색상 설명에 대한 유사도가 높다면 $\rightarrow$ 색상 편향 (Color Bias) 존재.
- 만약 모양 설명에 대한 유사도가 높다면 $\rightarrow$ 형태 중심 (Shape-focused) 학습.

3. 실험 및 결과 (Experiments & Results)

데이터셋: MNIST 데이터셋의 숫자 5 와 8 을 사용했습니다.
- 편향된 데이터: 학습/검증/테스트 데이터에서 '5'는 항상 빨간색, '8'은 항상 초록색으로 고정됨 (실제 배포 시에는 색상이 무작위인 환경과 대비됨).
- 목표: 모델이 색상에 의존하여 학습했는지 확인.
주요 결과:
1. 편향 탐지: 제안된 방법은 독립 모델이 객체의 '형태'가 아닌 '색상'을 우세한 개념으로 학습했음을 정확히 식별했습니다. (기존 Saliency Map 은 이를 명확히 구분하지 못함).
2. 편향 제거 검증: 색상 정보를 제거한 회색조 (Grayscale) 데이터로 모델을 재학습시킨 후, 동일한 XAI 기법을 적용했습니다. 그 결과, 우세한 개념이 '색상'에서 '형태'로 성공적으로 전환됨을 확인했습니다.
3. 정량적 분석: 네트워크 수술을 통해 독립 모델의 활성화 맵 중 약 16.9% 만 교체되었음에도 불구하고, 개념 우세도 (Concept Dominance) 를 통계적으로 유의미하게 측정할 수 있었습니다.

4. 주요 기여 (Key Contributions)

새로운 XAI 프레임워크: CLIP 의 언어 - 이미지 정합 능력을 활용하여 CNN 의 내부 개념을 텍스트 기반 (Caption-driven) 으로 설명하는 새로운 방법론을 제시했습니다.
중첩된 특징 환경에서의 우월성: 우연적 특징과 중요한 특징이 겹치는 경우에도 기존 Saliency Map 보다 정확하게 모델의 편향을 탐지할 수 있음을 입증했습니다.
네트워크 수술 기법: 설명 대상 모델을 CLIP 에 통합하기 위한 체계적인 네트워크 수술 (활성화 맵 스왑 및 정합) 프로세스를 개발했습니다.
배포 전 검증 도구: 모델이 실제 세계 (Real-world) 에서 실패할 수 있는 공변량 이동 (Covariate Shift) 을 배포 전에 식별하고 수정할 수 있는 실용적인 도구를 제공합니다.

5. 의의 및 결론 (Significance & Conclusion)

의료 등 고위험 분야 적용: 의료 영상 분석 등 고위험 환경에서 의사의 선입견을 검증하거나 모델의 오작동을 예방하는 데 필수적인 도구로 활용될 수 있습니다.
견고한 ML 모델 개발: 단순히 디버깅 도구를 넘어, 모델 배포 전 필수적인 전제 조건 (Prerequisite) 으로 자리 잡아야 함을 강조합니다.
핵심 통찰: 합성곱 신경망 (CNN) 의 우세한 개념을 깊이 있게 이해하는 것이 모델의 견고성 (Robustness) 을 향상시키는 근본적인 방법임을 입증했습니다.

이 논문은 텍스트 기반 설명을 통해 시각 모델의 내부 논리를 투명하게 만들고, 이를 통해 편향을 제거하여 더 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 길을 제시합니다.