Why Does It Look There? Structured Explanations for Image Classification

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"왜 AI 는 이 부분을 보고 '고양이'라고 판단했을까?"**라는 질문에 답하기 위해 개발된 새로운 방법론, **I2X(Interpretability to Explainability)**에 대해 설명합니다.

기존의 AI 설명 기술은 마치 **"어디를 봤는지만 알려주는 지도"**와 같았습니다. 하지만 이 논문은 **"왜 그 지도를 보고 그렇게 결론을 내렸는지, 그 사고 과정이 어떻게 변해왔는지"**를 이야기로 풀어내는 **'구조화된 설명서'**를 만드는 방법을 제안합니다.

이해하기 쉽게 세 가지 핵심 비유로 정리해 드립니다.

1. 기존 방식 vs 새로운 방식 (I2X)

기존 방식 (블랙박스 + 하이라이트):
AI 가 사진을 보고 "고양이"라고 했을 때, 기존 기술은 사진 속 고양이 눈과 귀 부분을 빨간색으로 하이라이트만 해줍니다. (예: "여기를 봤어요.") 하지만 AI 가 왜 하필 그 부분을 보고 고양이라고 생각했는지, 그 이유와 논리는 알려주지 않습니다. 마치 "정답은 A 야"라고만 말하고 풀이 과정은 보여주지 않는 것과 같습니다.
새로운 방식 (I2X - 구조화된 설명):
I2X 는 AI 가 학습하는 전 과정을 녹화합니다. 그리고 AI 가 학습할 때마다 **"어떤 특징 (패턴) 을 기억해냈는지"**를 작은 조각들 (프로토타입) 로 나누어 정리합니다.
- 비유: AI 가 고양이를 배울 때, 처음엔 "귀 모양"을 보고, 다음엔 "수염"을 보고, 마지막엔 "눈동자"를 기억해낸다는 단계별 학습 일지를 만들어주는 것입니다. "왜 고양이라고 판단했는지"에 대한 이유와 과정이 담긴 스토리를 제공하는 거죠.

2. 핵심 원리: "프로토타입"이라는 레고 블록

이 논문에서는 AI 가 세상을 보는 방식을 레고 블록에 비유합니다.

프로토타입 (Prototype): AI 가 학습한 수많은 이미지에서 반복적으로 등장하는 작은 특징들입니다. (예: "대각선 줄무늬", "중앙의 점", "오른쪽 위 모서리" 등)
학습 과정: AI 는 처음엔 이 레고 블록들을 무작위로 섞어봅니다. 하지만 학습이 진행될수록, "고양이"를 구별하기 위해 어떤 블록이 중요한지를 알게 됩니다.
- 예: "고양이"를 구별하려면 '수염' 블록과 '귀 모양' 블록이 필요하지만, '개'는 '수염' 블록이 없으니 구별할 수 있구나!
I2X 의 역할: 이 레고 블록들이 학습 과정에서 어떻게 조합되고, 어떤 블록이 혼란을 일으키는지 시간순으로 추적해서 보여줍니다.

3. 실전 활용: 혼란을 해결하는 "수술"

가장 흥미로운 점은 이 설명을 통해 AI 의 실수를 고칠 수 있다는 것입니다.

문제 상황:
AI 가 '고양이'와 '개'를 구분할 때, 어떤 특정 특징 (예: 주황색 털의 가장자리) 때문에 둘을 헷갈려 합니다. 이 특징을 I2X 가 찾아냅니다.
- 비유: 학생이 시험을 볼 때, '고양이'와 '개'를 구분하는 기준이 모호해서 실수하는 부분이 있다는 것을 발견한 셈입니다.
해결책 (타겟ted 미세 조정):
I2X 가 찾아낸 **혼란스러운 특징 (불확실한 프로토타입)**을 가진 데이터만 골라내어, AI 가 다시 학습하게 합니다.
- 비유: 학생이 헷갈리는 문제 유형만 따로 모아 특별 보충 수업을 시켜주는 것입니다.
- 결과: AI 는 그 혼란스러운 특징을 더 이상 실수로 쓰지 않게 되고, 정확도가 올라가며 실수가 줄어듭니다.

요약: 왜 이 연구가 중요한가요?

투명성: AI 가 왜 그런 결정을 내렸는지, **단순히 "여기를 봤다"가 아니라 "이런 논리로 결론냈다"**는 것을 인간이 이해할 수 있는 언어로 설명해줍니다.
신뢰: 의료나 법률처럼 실수가 치명적인 분야에서 AI 를 믿고 쓸 수 있게 해줍니다.
개선: AI 가 왜 틀렸는지 정확히 찾아내어, 데이터를 고쳐서 AI 를 더 똑똑하게 만들 수 있습니다.

한 줄 요약:

"AI 가 그림을 볼 때, 단순히 '어디를 봤는지' 알려주는 것을 넘어, '어떤 특징을 보고 어떻게 생각했는지' 그 사고 과정을 일기처럼 정리해서, AI 가 헷갈리는 부분을 찾아내어 더 똑똑하게 만들어주는 방법을 제안합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

블랙박스 문제: 딥러닝 모델은 뛰어난 예측 성능을 보이지만, 그 내부 작동 원리가 불투명하여 신뢰성과 투명성이 부족합니다.
기존 XAI 의 한계: 기존 설명 가능한 인공지능 (XAI) 방법론들은 주로 비구조화된 (unstructured) 해석 (예: 세일리언시 맵, 개념 벡터) 을 제공합니다. 이는 "어디를 보았는지"는 알려주지만, 모델이 학습과 추론 과정에서 이러한 영역을 어떻게 조직화하고 활용하는지에 대한 구조화된 (structured) 인과 관계를 설명하지 못합니다.
보조 모델 의존성: 많은 최신 방법론이 GPT 나 CLIP 과 같은 외부 보조 모델을 사용하여 설명을 생성하는데, 이는 원래 모델의 충실도 (faithfulness) 를 떨어뜨리고 환각 (hallucination) 을 유발할 수 있습니다.
핵심 질문: "모델이 왜 특정 이미지 영역에 주목하는가 (Why Does It Look There)?"에 대한 체계적이고 구조화된 답변을 제공하는 것이 본 논문의 목표입니다.

2. 제안 방법론: I2X (Interpretability to Explainability)

저자들은 I2X라는 새로운 프레임워크를 제안합니다. 이는 사후 (post-hoc) 해석 도구 (예: GradCAM) 로부터 얻은 비구조화된 해석을 기반으로, 학습 과정 중의 모델 진화를 추적하여 구조화된 설명을 구축합니다.

주요 구성 요소 및 단계:

추상 프로토타입 (Abstract Prototypes) 추출:
- 학습이 완료된 모델의 특징 추출기 (Feature Extractor) 에서 추출된 모든 숨겨진 특징 벡터에 대해 PCA 와 K-Means 클러스터링을 적용합니다.
- 이를 통해 데이터셋 전반에 걸쳐 반복적으로 나타나는 패턴을 요약하는 **K 개의 중심점 (Centroids)**을 '추상 프로토타입'으로 정의합니다.
프로토타입 강도 (Prototype Intensity) 정량화:
- 학습의 각 체크포인트 (Checkpoint) 에서 사후 해석 도구 (GradCAM) 를 통해 생성된 세일리언시 맵을 추출합니다.
- 이 맵을 위에서 정의한 프로토타입 클러스터에 매핑하여, 각 프로토타입이 특정 샘플에서 얼마나 활성화되었는지 (강도) 를 수치화합니다.
모델 신뢰도 (Confidence) 와 프로토타입 진화 추적:
- 학습 단계 $t$ 와 $t+1$ 사이에서 모델의 클래스별 신뢰도 변화 ( $\Delta \hat{y}$ ) 와 프로토타입 강도 변화 ( $\Delta P$ ) 를 동시에 추적합니다.
- HDBSCAN 을 사용하여 신뢰도 변화 패턴이 유사한 샘플들을 군집화합니다.
구조적 설명 구성 (Mapping & Regression):
- 각 군집 내에서 프로토타입 강도 변화가 모델 신뢰도 변화에 어떻게 기여하는지 **릿지 회귀 (Ridge Regression)**를 통해 계수 행렬 ( $\beta$ ) 로 모델링합니다.
- 이를 통해 "어떤 프로토타입의 활성화가 특정 클래스의 예측 신뢰도 증가를 주도하는가"에 대한 인과적 책임을 할당합니다.
공유 및 전문 프로토타입 식별:
- 공유 프로토타입 (Shared Prototypes): 특정 클래스 내 모든 샘플에 공통적으로 존재하여 클래스를 정의하는 핵심 패턴.
- 전문 프로토타입 (Specialized Prototypes): 특정 하위 그룹에만 존재하거나, 다른 클래스와 혼동되는 '불확실한 (uncertain)' 패턴.

3. 주요 기여 (Key Contributions)

비구조화에서 구조화로: 세일리언시 맵과 같은 비구조화된 해석을, 학습 과정의 진화를 추적한 구조화된 설명으로 변환하는 프레임워크를 최초로 제안했습니다.
모델 내재적 설명: 외부 LLM 이나 보조 모델 없이, 모델 자체의 학습 데이터와 프로토타입 진화만으로 "왜 거기에 주목하는가"에 대한 설명을 생성하여 **충실도 (Faithfulness)**를 보장합니다.
학습 전략 분석: 데이터 순서의 무작위성 (Randomness) 이 모델이 어떤 프로토타입을 먼저 학습하고, 어떻게 클래스 간 경계를 설정하는지에 미치는 영향을 정량적으로 분석했습니다.
최적화 가이드 (Fine-tuning): I2X 를 통해 식별된 '불확실한 프로토타입'이 혼동을 유발하는 샘플을 대상으로 타겟팅된 교란 (Perturbation) 및 파인튜닝을 수행하여 모델 성능을 향상시키는 실용적인 방법을 제시했습니다.

4. 실험 결과 (Results)

실험은 MNIST 와 CIFAR-10 데이터셋에서 ResNet-50 및 InceptionV3 모델을 사용하여 수행되었습니다.

MNIST (숫자 7 인식 분석):
- 모델은 먼저 2, 6 과 같이 프로토타입 차이가 명확한 숫자를 구분하고, 이후 1, 9 와 같이 모호한 경우를 구분하는 계층적 학습 전략을 취함을 발견했습니다.
- 데이터 순서 영향: 학습 데이터의 순서를 변경하면 모델이 사용하는 프로토타입 선택 순서와 추론 전략이 달라지며, 이로 인해 특정 프로토타입 (예: P-17) 이 '불확실한' 역할을 하여 2 와 7 사이의 혼동을 증가시킵니다.
성능 향상 (Fine-tuning):
- I2X 로 식별된 불확실한 프로토타입 (P-17) 을 포함하는 샘플을 제거하거나 수정하여 파인튜닝을 수행한 결과, 2 와 7 사이의 혼동 (Confusion) 이 약 5 개 감소했습니다 (14.80 $\to$ 8.40).
- 전체 정확도는 유지하거나 소폭 향상되면서 (98.64%), 모델의 안정성이 크게 개선되었습니다.
CIFAR-10 및 InceptionV3 적용:
- CIFAR-10 에서 고양이와 개의 혼동 원인 (주황색 영역과 검은색 영역의 경계, P-72) 을 식별하고 제거함으로써 혼동을 238.60 에서 238.60 이하로 줄이고 정확도를 84.02% 로 향상시켰습니다.
- InceptionV3 에서도 숫자 4 와 9 의 혼동 (P-7 프로토타입) 을 해결하여 성능을 개선했습니다.

5. 의의 및 결론 (Significance)

이해와 최적화의 통합: I2X 는 단순히 모델을 설명하는 것을 넘어, 설명을 통해 모델 최적화를 직접 유도할 수 있는 실용적인 도구임을 입증했습니다.
데이터 중심 최적화: 모델의 내부 메커니즘을 이해함으로써, 어떤 데이터 샘플이 모델의 혼란을 유발하는지 식별하고 이를 제거하거나 수정하는 데이터 중심 (Data-centric) 접근법의 새로운 방향성을 제시했습니다.
신뢰성 있는 XAI: 외부 모델에 의존하지 않고 모델 자체의 학습 궤적을 기반으로 설명을 생성함으로써, 의료, 생물학, 금융 등 고신뢰도가 요구되는 분야에서 딥러닝 모델의 투명성을 높이는 데 기여할 수 있습니다.

요약하자면, 이 논문은 딥러닝 모델이 "왜" 특정 특징에 주목하는지에 대한 구조적이고 계층적인 설명을 생성하는 I2X 프레임워크를 제안하며, 이를 통해 모델의 학습 전략을 분석하고 불확실성을 제거하여 성능을 개선하는 새로운 패러다임을 제시합니다.

Why Does It Look There? Structured Explanations for Image Classification

1. 기존 방식 vs 새로운 방식 (I2X)

2. 핵심 원리: "프로토타입"이라는 레고 블록

3. 실전 활용: 혼란을 해결하는 "수술"

요약: 왜 이 연구가 중요한가요?

1. 문제 정의 (Problem Statement)

2. 제안 방법론: I2X (Interpretability to Explainability)

주요 구성 요소 및 단계:

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers