Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 어떻게 '생각'하는지, 특히 AI 의 뇌세포에 해당하는 '뉴런'이 무엇을 보고 있는지 설명하는 새로운 방법을 제안합니다.

기존의 방법들은 **"AI 의 뉴런이 무조건 의미 있는 것을 보고 있다"**라고 믿고, 활성화된 이미지를 보고 "아, 이건 '개'구나"라고 설명했습니다. 하지만 이 논문은 **"잠깐만, 그 뉴런이 정말로 '개'를 보고 있는 걸까? 아니면 그냥 우연히 반응한 걸까?"**라고 의심하며, 가설을 세우고 직접 검증하는 새로운 방식을 도입했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♂️ 비유: "수사관과 가짜 증인"

AI 의 뉴런을 수사관이라고 상상해 보세요. 이 수사관들은 사건 (이미지) 을 보고 "이건 범인이다!"라고 지목합니다.

1. 기존 방법의 문제점: "모든 증언을 믿는 순진한 형사"

기존의 AI 해석 기술들은 수사관 (뉴런) 이 무언가에 반응하면, 그 반응이 무조건 진실이라고 믿었습니다.

상황: 수사관 A 가 '고양이 눈'을 보고 "범인은 고양이야!"라고 외쳤습니다.
기존 방식: "오, 수사관 A 가 고양이 눈을 봤으니, 이 AI 는 고양이를 인식하는 거구나!"라고 결론 내립니다.
문제: 하지만 사실 수사관 A 는 '고양이 눈'뿐만 아니라 '강아지 코'나 '무작위 노이즈'에서도 똑같이 반응할 수 있습니다. 즉, 가짜 증언을 진실로 믿게 되어 AI 가 왜 그런 결정을 내렸는지 오해하게 됩니다.

2. 이 논문의 해결책: "선택 - 가설 - 검증 (SIEVE)"

이 논문은 **SIEVE(체)**라는 새로운 수사 절차를 제안합니다. 세 단계로 이루어져 있습니다.

① 선택 (Select): "진짜 열혈 증인만 뽑기"

모든 증언을 다 믿지 않고, 가장 확실하게 반응하는 경우만 골라냅니다.
비유: 수사관 A 가 100 번 중 99 번은 '고양이'를 보고 반응하지만, 1 번은 '의자'를 보고 반응했다면? 그 1 번은 무시하고, 99 번 반응한 '고양이' 관련 사진들만 모아서 분석합니다. 이렇게 하면 뉴런이 정말로 무엇을 좋아하는지 명확해집니다.

② 가설 (Hypothesize): "범인 특징 추측하기"

모은 사진들을 보고 "아, 이 수사관은 '고양이 눈'을 좋아하네"라고 가설을 세웁니다.
비유: "이 형사는 검은색 털과 수염을 가진 동물에 반응하네. 범인은 '검은 고양이'일 거야!"라고 추측합니다.

③ 검증 (Verify): "인질극 (실험) 으로 진실 확인하기" (가장 중요한 부분!)

여기서 기존 방법과 완전히 다릅니다. 단순히 "사진을 보고 반응했으니 맞다"가 아니라, 직접 실험을 해봅니다.
비유: "내가 지금 '검은 고양이' 그림을 직접 그려서 (AI 가 생성한 이미지) 수사관 A 에게 보여줄게. 진짜 '검은 고양이'를 인식하는 형사라면 반응할 거야!"
만약 그려진 '검은 고양이'를 보여줬는데 수사관이 반응하지 않는다면? 그 가설은 틀린 것입니다. "아, 이 형사는 고양이 눈이 아니라 그냥 '둥근 무언가'를 좋아하는구나"라고 다시 생각합니다.
이 과정을 통해 틀린 설명 (가짜 개념) 을 걸러내고, 진짜로 AI 가 인식하는 개념만 남깁니다.

🌟 왜 이 방법이 중요한가요?

오해를 줄여줍니다:
- 기존 방법은 AI 가 "고양이"를 인식한다고 설명했는데, 사실은 "고양이 귀"만 인식하고 "고양이 몸"은 못 본다고 착각하게 만들 수 있습니다. 이 방법은 **"아, 이 뉴런은 정말로 '고양이' 전체를 보는구나"**라고 확신할 수 있게 해줍니다.
불필요한 뉴런을 걸러냅니다:
- AI 에는 결정에 아무런 도움이 안 되는 '冗余 (중복/불필요)' 뉴런들이 있습니다. 이 방법들은 이런 뉴런들이 반응하는 소음을 걸러내어, AI 의 진짜 의사결정 과정을 더 투명하게 보여줍니다.
과학적인 접근:
- 단순히 "보이는 게 다야" (관측) 가 아니라, "만약 그렇다면 이렇게 될 거야" (가설) -> "직접 만들어서 확인해 보자" (검증) 라는 과학적 방법론을 AI 해석에 적용했습니다.

📊 결과는 어땠나요?

실험 결과, 이 새로운 방법 (SIEVE) 으로 설명한 개념들은 기존 방법보다 약 1.5 배 더 정확하게 AI 의 뉴런을 활성화시켰습니다. 즉, 우리가 AI 에게 "너는 무엇을 보고 있니?"라고 물었을 때, AI 가 더 정확하고 신뢰할 수 있는 대답을 해준다는 뜻입니다.

💡 한 줄 요약

"AI 의 뉴런이 무엇을 보고 있는지 설명할 때, 단순히 '보이는 것'을 믿지 말고, 직접 '만들어 보고 확인'하는 과정을 거치면 훨씬 더 정확한 AI 의 마음을 읽을 수 있다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

딥러닝 모델의 의사결정 과정을 이해하기 위해 뉴런의 기능 (개념) 을 해석하는 것은 필수적입니다. 기존 연구들은 뉴런이 활성화되는 이미지를 기반으로 자연어 설명을 생성하여 뉴런의 기능을 설명하려 했습니다. 그러나 이러한 기존 방법론에는 두 가지 근본적인 한계가 존재합니다.

중복 및 오해의 소지가 있는 뉴런의 존재: 모든 뉴런이 명확한 기능을 가지고 있거나 모델의 의사결정에 차별적인 특징을 제공하는 것은 아닙니다. 일부 뉴런은 중복되거나 (redundant), 노이즈에 의해 활성화되어 잘못된 개념을 유도할 수 있습니다.
검증 부재: 기존 방법들은 생성된 개념이 뉴런의 실제 기능을 정확히 반영한다고 가정합니다. 즉, 관찰 (Observation) 에만 의존할 뿐, 생성된 개념이 뉴런을 실제로 활성화시키는지에 대한 인과적 검증 (Verification) 과정이 결여되어 있습니다. 이는 잘못된 개념을 인간의 이해에 반영하여 모델의 작동 원리를 오해하게 만들 수 있습니다.

2. 제안 방법론: SIEVE 프레임워크 (Methodology)

저자들은 과학적 방법론 (관찰 - 가설 - 검증) 에서 영감을 받아 뉴런 기능 해석을 위한 Select-Hypothesize-Verify (SIEVE) 프레임워크를 제안합니다. 이 프레임워크는 세 가지 핵심 단계로 구성됩니다.

1 단계: Select (샘플 선택)

목적: 명확한 기능적 역할을 수행하는 뉴런을 식별하고, 해당 뉴런의 기능을 가장 잘 보여주는 고활성화 (High-activation) 샘플을 선별합니다.
기법: 프로브 데이터셋 (Probe dataset) 에서 뉴런의 활성화 분포를 분석합니다. 99 백분위수 (99-th percentile) 와 중앙값 (Median) 의 비율을 계산하여 뉴런의 반응 강도를 정량화합니다.
필터링: 이 비율이 임계값 ( $\beta$ ) 을 초과하는 뉴런만 선택합니다. 이는 명확한 활성화 패턴을 가진 '고차별성 (High-discrimination)' 뉴런과 무작위 노이즈에 반응하는 '저차별성' 뉴런을 구분하여, 후속 단계에서 신뢰할 수 없는 뉴런을 제거합니다.

2 단계: Hypothesize (개념 가설 수립)

목적: 선별된 고활성화 샘플들을 기반으로 뉴런의 기능을 설명하는 자연어 개념 (개념 가설) 을 생성합니다.
기법:
- 클러스터링: 고활성화 이미지 패치들을 특징 벡터로 추출한 후, 계층적 클러스터링 (Agglomerative Clustering) 을 수행하여 하나의 뉴런이 여러 가지 다른 패턴 (예: 다양한 색상의 털, 특정 모양 등) 을 인식할 수 있음을 포착합니다.
- 개념 매칭: 각 클러스터에 대해 사전 정의된 개념 집합 (Concept set) 과 시각 - 언어 모델 (CLIP 등) 을 사용하여 유사도를 계산합니다. 유사도가 높은 상위 $K$ 개의 개념을 해당 클러스터의 기능 가설로 선정합니다.

3 단계: Verify (개념 검증)

목적: 생성된 개념 가설이 뉴런의 실제 기능을 정확히 반영하는지 검증합니다.
기법 (개념 기반 개입 실험):
- 이미지 생성: 선정된 개념 가설 (텍스트) 을 프롬프트로 사용하여 텍스트 - 이미지 생성 모델 (예: Stable Diffusion) 로 새로운 이미지 세트를 생성합니다. 이는 기존 프로브 데이터셋의 편향을 피하기 위함입니다.
- 활성화율 (Activation Rate, AR) 측정: 생성된 이미지를 대상 모델에 입력하여, 해당 뉴런이 유의미하게 활성화되는 비율을 계산합니다.
- 판단: 생성된 이미지가 뉴런을 높은 확률로 활성화시킨다면, 해당 개념 가설은 유효한 것으로 간주합니다. 그렇지 않다면 (낮은 AR), 해당 개념은 잘못된 것으로 판별하여 폐기합니다.

3. 주요 기여 (Key Contributions)

검증 가능한 해석 프레임워크 (SIEVE): 뉴런 개념 해석에 '선택 - 가설 - 검증'의 폐쇄 루프 (Closed-loop) 구조를 도입하여, 기존 방법들이 간과했던 잘못된 개념을 식별하고 제거합니다.
뉴런 필터링 메커니즘: 모든 뉴런이 의미 있는 특징을 제공하는 것은 아니라는 점을 인식하고, 활성화 분포 분석을 통해 저품질 (중복/노이즈) 뉴런을 사전에 필터링하는 메커니즘을 설계했습니다.
성능 향상: 제안된 방법은 현재 최첨단 (SOTA) 방법들보다 약 1.5 배 높은 확률로 생성된 개념이 해당 뉴런을 활성화시킴을 실험을 통해 입증했습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: ImageNet-1K 에서 사전 학습된 ResNet-50, ViT-B/16, Places365 에서 학습된 ResNet-18 등을 대상으로 실험 수행.
정량적 평가:
- 평균 활성화율 (Mean AR): 제안된 방법은 기존 방법 (CLIP-Dissect, WWW, DnD 등) 대비 penultimate layer 에서 **약 85%~~86%**의 평균 활성화율을 기록하여, 기존 방법 (약 45%~~58%) 보다 월등히 높은 성능을 보였습니다. 이는 생성된 개념이 뉴런의 실제 기능을 훨씬 정확하게 반영함을 의미합니다.
- 유사도 지표: CLIP cosine 및 MPNet cosine 유사도에서도 SOTA 대비 우수한 또는 동급의 성능을 달성했습니다.
정성적 평가:
- SIEVE 는 객체 카테고리 (예: '개') 와 같은 포괄적인 라벨뿐만 아니라, '짧고 빽빽한 털 (Short Dense Coat)'과 같은 세밀한 국소적 특징과 다중 개념을 포착하여 더 풍부하고 정확한 설명을 제공합니다.
생성 모델 도메인 시프트 (Domain Shift): 생성 모델의 학습 데이터와 다른 도메인 (예: 위성 이미지) 에서도 검증 단계가 가설의 신뢰성을 유지하며 성능 저하를 완화하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 신경망 해석 가능성 (Interpretability) 연구에 과학적 방법론 (가설 설정 및 실험적 검증) 을 체계적으로 도입했다는 점에서 의의가 큽니다.

기존 연구가 단순히 "뉴런이 무엇을 활성화하는가?"를 관찰하는 데 그쳤다면, 본 연구는 "생성된 개념이 뉴런을 실제로 활성화시키는가?"를 인과적으로 검증함으로써 해석의 신뢰성을 획기적으로 높였습니다.
이를 통해 모델의 의사결정 메커니즘을 더 투명하고 정확하게 이해할 수 있게 되었으며, 안전이 중요한 분야 (Safety-critical applications) 에 딥러닝 모델을 배포할 때 발생할 수 있는 오해와 위험을 줄이는 데 기여할 것으로 기대됩니다.