Learning Concept Bottleneck Models from Mechanistic Explanations

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 '검은 상자'처럼 작동합니다

지금까지의 AI 는 마치 마법상자와 같습니다. 사진을 넣으면 "이건 호랑이입니다"라고 답은 해주지만, "왜 호랑이라고 생각했지?"라고 물어보면 "그냥 그랬어"라고만 말합니다.

기존 방식의 한계: 연구자들은 AI 를 설명하기 위해 미리 "줄무늬", "코", "귀" 같은 개념을 정해두고 AI 에게 가르쳤습니다. 하지만 문제는 AI 가 실제로 중요하게 생각하지 않는 개념을 가르치거나, AI 가 배울 수 없는 개념을 강요한다는 점입니다.
- 비유: 요리사가 "불"과 "소금"만 중요하게 생각하는데, 우리는 "우주비행사의 모자"라는 개념을 가르치려고 애쓰는 것과 같습니다. AI 는 혼란스러워하고, 결국 정답을 맞추기 위해 숨겨진 단서 (정보 누수) 를 훔쳐보게 되어 설명이 무의미해집니다.

2. 해결책: M-CBM (기계적 개념 병목 모델)

저자들은 **"그럼 AI 가 스스로 배운 개념을 가져와서 사람이 이해할 수 있게 이름을 붙여주자!"**라고 생각했습니다. 이를 M-CBM이라고 부릅니다.

이 과정은 4 단계로 이루어집니다:

1 단계: AI 의 뇌를 해부하기 (SAE 사용)

AI 의 내부에는 수많은 신경세포 (뉴런) 가 있습니다. 하지만 이 뉴런들은 서로 섞여 있어 무엇을 의미하는지 알기 어렵습니다.

비유: 거대한 도서관에서 책들이 뒤죽박죽 섞여 있는 상태입니다. 저자들은 **Sparse Autoencoder(SAE)**라는 도구를 써서, 이 책들을 주제별로 깔끔하게 분류하고 정리합니다.
결과: "줄무늬가 있는 것", "푸른색 배경", "날개"처럼 AI 가 실제로 중요하게 여기는 순수한 개념들이 추출됩니다.

2 단계: 개념에 이름 붙이기 (멀티모달 LLM 사용)

정리된 개념들은 아직 이름이 없습니다. "이 뉴런은 무엇을 보고 있는 걸까?"

비유: 정리된 책 더미를 **유능한 도서관 사서 (멀티모달 AI)**에게 보여줍니다. 사서는 책의 내용과 이미지를 보고 "아, 이건 '노란 깃털'이구나", "저건 '검은 가면'이구나"라고 사람이 이해할 수 있는 이름을 붙여줍니다.

3 단계: 개념 확인하기 (데이터 주석 달기)

사서가 붙인 이름이 맞는지 확인해야 합니다.

비유: 사서가 "노란 깃털"이라고 한 책들을 실제로 찾아서 "이 책에 노란 깃털이 있니?"라고 물어보고 체크리스트를 만듭니다. 이때 AI 가 잘 반응하는 이미지와 반응하지 않는 이미지를 섞어서 보여줍니다.

4 단계: 새로운 AI 만들기 (Concept Bottleneck Model)

이제 이 '사람이 이해하는 개념'들을 이용해 AI 를 다시 만듭니다.

비유: 이제 AI 는 "노란 깃털이 있니? 검은 가면이 있니?"를 먼저 확인하고, 그 결과를 바탕으로 "아, 이건 호랑이가 아니라 '노란 깃털을 가진 새'구나!"라고 결론을 내립니다.
장점: AI 가 내린 결론의 근거가 명확하게 드러납니다. "왜 호랑이냐고?"라고 물으면 "줄무늬와 코 모양이 호랑이 특징과 일치하기 때문"이라고 정확한 이유를 알려줍니다.

3. 핵심 성과: "적은 개념으로 더 잘 설명한다"

이 연구의 가장 큰 성과는 **NCC(기여하는 개념의 수)**라는 지표를 도입했다는 점입니다.

비유: 과거의 AI 는 설명할 때 "줄무늬, 코, 귀, 눈, 발, 꼬리, 털, 배경, 빛, 그림자..." 등 100 가지 요소를 다 나열하며 설명했습니다. 하지만 중요한 건 그중 3 가지만이었습니다.
M-CBM 의 특징: 중요한 개념만 골라내어 **"이 새는 노란 깃털과 검은 가면 때문에 이 새입니다"**라고 간결하고 명확하게 설명합니다.
- 이렇게 설명을 간결하게 하더라도, 오히려 기존 AI 들보다 정답률 (성능) 이 더 높았습니다.
- 기존 방식들은 설명을 하려고 하면 성능이 떨어졌는데, M-CBM 은 설명도 잘하고 성능도 좋습니다.

4. 요약: 왜 이 연구가 중요한가요?

AI 의 속마음을 읽는다: AI 가 스스로 배운 '비밀 언어'를 찾아내서, 우리가 이해하는 '일상 언어'로 번역해 줍니다.
정직한 설명: AI 가 엉뚱한 단서 (정보 누수) 를 훔쳐보지 않고, 진짜 중요한 특징만으로 판단하도록 만듭니다.
간결함: 복잡한 설명 대신, 핵심만 짚어서 "왜 그런 결론을 내렸는지" 한눈에 보여줍니다.

한 줄 요약:

**"AI 가 스스로 배운 '비밀 코드'를 해독해서, 사람이 이해하기 쉬운 '간결한 이유'로 설명해 주는 새로운 AI 기술"**입니다.

이 기술은 의료 (질병 진단), 자율주행, 군사 등 실수가 허용되지 않는 분야에서 AI 가 왜 그런 결정을 내렸는지 신뢰할 수 있게 만들어 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 개념 병목 모델 (CBM) 은 "해석 가능한 개념을 먼저 예측한 후, 이를 바탕으로 최종 결정을 내리는" ante-hoc(사전적) 해석 가능 모델입니다. 그러나 기존 접근법에는 다음과 같은 근본적인 문제가 존재합니다.

선제적 개념의 한계: 기존 CBM 은 인간 전문가, 지식 그래프, LLM 프롬프팅, 또는 CLIP 과 같은 사전 학습된 모델에서 추출한 일반적 개념을 미리 정의합니다.
예측력 부족 및 학습 불가능: 사전에 정의된 개념들이 특정 작업 (Task) 에 충분한 예측력을 가지지 못하거나, 사용 가능한 데이터로부터 학습하기 어려운 경우가 많습니다.
정보 누출 (Information Leakage) 과 성능 저하: 이러한 이유로 CBM 은 종종 블랙박스 모델의 성능을 따라가지 못합니다. 또한, 정보 누출 (개념의 의미 외의 클래스 관련 패턴이 병목 층에 은밀히 인코딩되는 현상) 을 통제할 때 성능이 급격히 떨어지는 문제가 발생합니다.
학습된 개념의 활용 부재: 현대 ML 시스템은 종종 인간 전문가보다 뛰어난 개념을 학습하고 있지만, 이를 해석 가능성에 활용하는 시도는 제한적입니다.

2. 방법론 (Methodology: M-CBM)

저자들은 블랙박스 모델이 스스로 학습한 개념을 직접 추출하여 CBM 의 병목 층을 구성하는 M-CBM 파이프라인을 제안합니다. 전체 과정은 Figure 1 에 요약되어 있으며, 4 단계로 구성됩니다.

1 단계: 개념 추출 (Concept Extraction via SAE)

학습된 블랙박스 백본 (Backbone) 의 특징 (Feature) 을 희소 오토인코더 (Sparse Autoencoder, SAE) 를 사용하여 분해합니다.
SAE 는 입력 특징을 재구성하면서 은닉층 표현의 희소성 (Sparsity) 을 강제하여, 각 뉴런이 하나의 명확한 개념 (Monosemantic feature) 을 학습하도록 합니다.
필터링: 학습 후 활성화되지 않거나 거의 활성화되지 않는 '죽은 (dead)' 뉴런을 제거하여 개념 후보 집합을 정제합니다. 이 과정에서 블랙박스 모델의 예측 성능 (교차 엔트로피 손실) 이 1% 이내로만 감소하도록 임계값을 설정합니다.

2 단계: 개념 명명 (Concept Naming via MLLM)

추출된 각 SAE 뉴런에 대해 인간이 이해할 수 있는 자연어 이름을 부여합니다.
다중 모달 LLM (Multimodal LLM, 예: GPT-4.1) 을 활용합니다.
입력: 해당 뉴런이 가장 강하게 활성화된 이미지 (Positive) 와 활성화되지 않은 이미지 (Negative) 를 쌍으로 제공합니다.
출력: 뉴런이 인식하는 시각적 개념에 대한 간결한 자연어 설명을 생성합니다. (클래스 이름이 아닌 개념 이름으로 제한).

3 단계: 데이터셋 주석 (Dataset Annotation)

생성된 개념 이름이 SAE 뉴런의 실제 기능을 정확히 반영하는지 검증하기 위해, 데이터셋의 일부에 대한 이진 주석 (존재/부재) 을 수행합니다.
주석 전략: 각 개념당 약 1,000 개의 샘플을 주석합니다.
- 활성화 샘플: 뉴런 활성화가 상위 95% 이상인 이미지들.
- 비활성화 샘플: 무작위 이미지와 활성화 이미지와 가장 유사한 (Cosine similarity) 이미지들.
MLLM 에게 25 장의 이미지 (5x5 그리드) 를 한 번에 제시하여 각 이미지에 개념이 있는지 여부를 판단하게 합니다.

4 단계: 개념 병목 모델 학습 (Training CBM)

CBL (Concept Bottleneck Layer): 백본 특징을 입력받아 주석된 개념들의 존재 확률을 예측합니다. (부분적으로 주석된 데이터만 사용하여 학습).
분류기: 개념 예측값을 바탕으로 최종 클래스를 예측하는 희소 선형 분류기를 학습합니다.
정규화: Elastic-net 손실 함수를 사용하여 분류기 가중치의 희소성을 제어합니다.

3. 주요 기여 (Key Contributions)

1. M-CBM 파이프라인 제안

블랙박스 모델이 학습한 내부 표현 (SAE 를 통해 추출) 을 기반으로 개념을 자동 생성하고, 이를 MLLM 을 통해 해석 가능하게 만든 후 CBM 을 구축하는 최초의 체계적인 방법론입니다. 이는 사전 정의된 개념의 한계를 극복하고 모델이 실제로 학습한 개념을 활용합니다.

2. 기여도 기반 희소성 지표 (NCC) 도입

기존의 NEC (Number of Effective Concepts) 는 클래스당 비영 (non-zero) 가중치의 수를 세는 방식이라, 클래스 수가 적을 때 개념 어휘를 과도하게 제한하는 문제가 있었습니다.

NCC (Number of Contributing Concepts): 결정 수준 (Decision-level) 에서 개념의 기여도 (Logit × Weight) 를 기반으로 희소성을 측정합니다.
의미: 전체 예측의 $\tau$ (예: 95%) 를 설명하는 데 필요한 개념의 평균 개수를 측정합니다. 이는 클래스 내 다양성을 고려하면서도 간결한 설명을 강제하는 더 유연한 지표입니다.

3. 정보 누출 통제 및 성능 향상

M-CBM 은 블랙박스 모델의 성능을 유지하면서 기존 CBM 들보다 높은 해석 가능성을 제공합니다.
정보 누출을 통제하기 위해 NCC 를 일정 수준으로 고정했을 때, 기존 방법론들보다 일관되게 높은 정확도를 달성했습니다.

4. 실험 결과 (Results)

데이터셋 및 비교 대상

데이터셋: CUB (조류), ISIC2018 (피부 병변), ImageNet (일반 객체).
비교 대상: LF-CBM, VLG-CBM, DN-CBM 등 최신 CBM 기법들.

주요 성과

정확도 (Accuracy):
- 모든 데이터셋과 희소성 수준 (NCC=5, NCC=avg) 에서 M-CBM 이 가장 높은 정확도를 기록했습니다.
- 특히 NCC=5 (매우 간결한 설명) 조건에서 기존 방법론 (LF-CBM, DN-CBM 등) 을 크게 앞섰습니다.
개념 예측 능력 (Concept Prediction):
- M-CBM 은 추출된 개념을 학습하는 데 있어 ROC-AUC 에서 압도적인 성능을 보였습니다 (예: CUB 에서 90.04% vs VLG-CBM 62.03%).
- 이는 LLM 이 생성한 추상적 개념보다 모델이 실제로 학습한 시각적 특징이 더 학습 가능하고 일관성이 있음을 의미합니다.
해석 가능성:
- Sankey 다이어그램과 개별 예측 설명을 통해 모델이 어떤 개념을 기반으로 결정을 내리는지 명확히 보여줍니다.
- 잘못된 예측 (Misclassification) 에 대한 원인 분석이 가능하여, 특정 개념을 제거하면 올바른 예측으로 전환되는지 등을 검증할 수 있습니다.

5. 의의 및 결론 (Significance)

기계 학습의 해석 가능성 패러다임 전환: 인간이 미리 정의한 개념에 의존하는 대신, 모델이 스스로 학습한 '메커니즘적'인 개념을 해석 가능성의 핵심으로 끌어올렸습니다.
정확성과 해석 가능성의 트레이드오프 완화: 기존 CBM 들이 겪던 "해석을 위해 정확도를 희생해야 한다"는 딜레마를 크게 완화했습니다.
정보 누출 문제 해결: NCC 지표를 통해 정보 누출을 정량적으로 통제하면서도, 모델이 가진 예측 능력을 최대한 활용할 수 있는 균형을 찾았습니다.
한계 및 향후 과제: MLLM 을 사용한 주석 비용이 높고, 추출된 개념이 항상 완벽하게 해석 가능한 것은 아니라는 한계가 있으나, MLLM 의 발전과 함께 개선될 여지가 큽니다.

이 연구는 메커니즘적 해석 가능성 (Mechanistic Interpretability) 과 개념 기반 설명 (Concept-based Explanations) 을 결합하여, 더 강력하고 신뢰할 수 있는 AI 모델 개발을 위한 새로운 방향을 제시합니다.