Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (신경망) 이 어떻게 생각하는지, 그 내부를 인간이 이해할 수 있는 언어로 번역하는 방법"**을 제안합니다.

신경망은 보통 '블랙박스'라고 불립니다. 입력을 주면 정답을 내놓지만, 어떻게 그 결론에 도달했는지는 알 수 없기 때문입니다. 이 논문은 그 블랙박스를 열어보고, AI 가 배운 지식을 우리가 이해할 수 있는 '개념의 지도'로 그려내는 새로운 프레임워크를 소개합니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.

1. 핵심 아이디어: "AI 의 두 가지 시선 (Conceptual Views)"

저자들은 신경망을 분석할 때 두 가지 렌즈를 사용한다고 말합니다. 마치 사진을 찍을 때 고해상도 원본과 스케치 두 가지를 비교하는 것과 비슷합니다.

① 다중값 개념 뷰 (Many-Valued View): "고해상도 원본 사진"

비유: AI 가 마지막 단계에서 본 모든 숫자 데이터 (신호의 세기, 가중치 등) 를 그대로 담은 정밀한 지도입니다.
역할: 이 지도는 AI 가 원래 어떻게 작동하는지 거의 완벽하게 재현합니다. 마치 AI 의 두뇌 활동을 그대로 기록한 것처럼, 이 지도만으로도 AI 가 어떤 물체를 '사과'로 분류할지 정확히 예측할 수 있습니다.
장점: AI 의 성능을 잃지 않고 그 내부 구조를 수학적으로 완벽하게 묘사합니다.

② 상징적 개념 뷰 (Symbolic View): "간단한 스케치"

비유: 복잡한 원본 사진을 바탕으로, **"신호 세기가 강하면 O, 약하면 X"**처럼 단순한 규칙으로만 그린 흑백 스케치입니다.
역할: 숫자 데이터를 '참/거짓' 같은 인간이 이해하기 쉬운 기호로 바꿉니다. 예를 들어, "신호 A 가 켜지고 신호 B 가 꺼지면, 그것은 '빨간색'이다" 같은 규칙을 만들어냅니다.
장점: AI 가 왜 '사과'라고 판단했는지, **"빨간색이고 둥글기 때문이다"**처럼 인간이 이해할 수 있는 논리적 규칙 (규칙 기반) 으로 설명해 줍니다.

2. 이 프레임워크의 놀라운 능력들

이론만 있는 게 아니라, 실제로 24 개의 다양한 AI 모델 (사과, 과일 사진 등을 분류하는 모델 등) 로 실험해 보았습니다.

🌍 AI 모델 간의 '유사도' 측정하기 (지구의 거리 측정)

상황: 서로 다른 AI 모델 두 개가 있다고 칩시다. 둘 다 사과를 잘 찾지만, 내부 구조는 다를 수 있습니다.
해결: 이 방법은 두 AI 가 만든 '개념 지도'를 비교합니다. 마치 두 도시의 거리를 재듯, 두 AI 가 세상을 어떻게 바라보는지 수학적으로 비교합니다.
결과: "이 두 AI 는 구조가 매우 비슷해" 혹은 "이건 완전히 다른 방식으로 학습했어"라고 알려줍니다.

🧩 인간이 이해할 수 있는 규칙 만들기 (추론)

상황: AI 가 "이 과일은 체리야"라고 했을 때, 왜 그런지 모릅니다.
해결: 상징적 뷰를 이용해 배경 지식 (예: 체리는 작고 빨갛다) 과 연결합니다.
결과: "신호 13 번이 켜지고 신호 14 번이 꺼지면, 그 과일은 '주황색'일 확률이 높다"거나 "이 신호들은 '빨간색'과 '작은 크기'를 의미한다"는 식의 인간이 읽을 수 있는 규칙을 찾아냅니다.

🗺️ 개념의 계층 구조 그리기 (개념 격자)

비유: AI 가 배운 지식을 가족 나무나 도서관의 분류 체계처럼 그립니다.
결과: "사과"와 "배"는 서로 가깝게 있고, "토마토"는 조금 떨어져 있는 식으로, AI 가 어떻게 개념들을 그룹화하고 있는지 시각적으로 보여줍니다.

3. 왜 이것이 중요한가요? (일상적인 예시)

지금까지 AI 는 "내가 정답을 맞췄으니 믿어줘"라고만 했습니다. 하지만 의료 진단이나 자율 주행처럼 실수가 치명적인 분야에서는 "왜 그렇게 판단했는지"가 필수적입니다.

기존 방식: "이 사진은 암입니다." (이유 모름)
이 논문의 방식: "이 사진은 암입니다. 왜냐하면 AI 의 '신호 A'가 켜졌고, 이는 '비정형 세포'를 의미하며, 배경 지식상 이는 암의 특징이기 때문입니다."

이처럼 AI 의 복잡한 숫자 세계를 인간의 논리 세계로 번역해 주는 것이 이 연구의 핵심입니다.

4. 요약: 한 문장으로 정리하면?

"이 논문은 AI 의 머릿속을 복잡한 숫자 덩어리가 아닌, 우리가 이해할 수 있는 '개념 지도'와 '규칙'으로 변환하는 새로운 번역기를 개발했습니다."

이 번역기를 통해 우리는 AI 가 무엇을 배웠는지, 어떻게 판단하는지, 그리고 다른 AI 와는 어떻게 다른지 명확하게 볼 수 있게 되었습니다. 이는 AI 를 단순히 '신뢰할 수 없는 블랙박스'가 아니라, 우리와 대화할 수 있는 파트너로 만드는 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

신경망 (Neural Networks, NN) 은 다양한 학습 문제에서 탁월한 성능을 보이지만, 그 결정 과정이 인간의 이해를 벗어난 '블랙박스'라는 치명적인 단점이 있습니다. 기존 설명 가능 AI(XAI) 연구는 크게 두 가지로 나뉩니다.

국소적 설명 (Local Explanations): 특정 입력이 왜 특정 방식으로 처리되었는지 설명 (예: 세일리언시 맵). 하지만 고차원 데이터나 복잡한 구조에서는 시각적 검사가 불가능하여 한계가 있습니다.
전역적 설명 (Global Explanations): 모델 전체를 특징짓는 설명. 이는 본질적으로 어렵고 덜 탐구되었지만, 신경망에 대한 포괄적인 이해를 위해 필수적입니다.

기존의 심볼릭 방법론은 사전 정의된 개념을 필요로 하거나 아키텍처를 제한하는 방식 (Concept Bottleneck Models) 을 취하는 반면, 본 논문은 학습된 표현을 사후 (post-hoc) 에 분석하여 전역적이고 인간이 이해할 수 있는 규칙을 도출하는 새로운 프레임워크를 제안합니다.

2. 방법론 (Methodology)

저자들은 **형식적 개념 분석 (Formal Concept Analysis, FCA)**을 기반으로 한 **'개념적 뷰 (Conceptual Views)'**라는 수학적 프레임워크를 제안합니다. 이 프레임워크는 신경망의 마지막 은닉층 (last hidden layer) 출력과 가중치 구조를 분석합니다.

A. 다치 개념적 뷰 (Many-Valued Conceptual View)

신경망의 내부 상태를 실수 행렬로 표현하여, 객체 (이미지) 와 클래스 간의 유사성을 측정하는 의사 거리 공간 (pseudo-metric space) 을 구축합니다.

객체 뷰 (Object View, $O$ ): 입력 객체 $g$ 에 대한 마지막 은닉층 뉴런들의 활성화 값 행렬.
클래스 뷰 (Class View, $W$ ): 출력 클래스 $c$ 와 은닉층 뉴런을 연결하는 가중치 행렬.
작동 원리: 객체와 클래스를 동일한 공간에 매핑하여, 코사인 유사도나 유클리드 거리를 사용하여 객체를 분류합니다. 이를 통해 원본 신경망 모델의 행동을 고도로 충실하게 모사하는 대리 모델 (surrogate) 로 기능합니다.
모델 비교: 구축된 의사 거리 공간 간에 그로모프 - 바슈타인 (Gromov-Wasserstein, GW) 거리를 적용하여 서로 다른 신경망 아키텍처 간의 유사성을 정량화합니다.

B. 심볼릭 개념적 뷰 (Symbolic Conceptual View)

다치 데이터를 FCA 의 개념 스케일링 (Conceptual Scaling) 기법을 통해 이진 (binary) 관계로 변환합니다.

이진화: 뉴런 활성화 값과 가중치에 임계값 ( $\delta_O, \delta_W$ ) 을 적용하여 이진 속성 ( $n \le \delta, n > \delta$ ) 을 생성합니다.
형식적 문맥 (Formal Context): 객체와 속성 간의 관계 행렬을 구성하고, 이를 통해 **개념 격자 (Concept Lattice)**를 생성합니다.
추론: 생성된 격자 구조를 통해 명제 논리 (propositional logic) 기반의 함의 규칙을 추출하거나, 배경 지식 (Background Knowledge) 과 결합하여 뉴런이 의미하는 인간 친화적인 규칙을 유도합니다.

3. 주요 기여 (Key Contributions)

형식적 프레임워크 제안: 신경망의 전역적 분석을 위해 FCA 기반의 '개념적 뷰'를 정립했습니다. 이는 아키텍처를 변경하지 않고 학습된 표현을 해석하는 사후 분석 (post-hoc) 접근법입니다.
모델 유사성 측정: GW 거리를 적용하여 신경망의 가중치와 활성화 패턴이 형성하는 공간 구조 자체를 비교하는 새로운 방법론을 제시했습니다.
심볼릭 변환 및 추론: 다치 데이터를 심볼릭 데이터로 변환하여, 결정 트리 (Decision Tree) 나 하위 그룹 발견 (Subgroup Discovery) 과 같은 해석 가능한 알고리즘을 신경망 분석에 적용할 수 있게 했습니다.
배경 지식 통합: 인간이 정의한 개념 (예: 과일의 색상, 형태) 과 신경망의 뉴런을 연결하여 '귀납적 학습 (Abductive Learning)'을 수행하고, 뉴런의 역할을 인간이 이해할 수 있는 언어로 설명하는 체계를 마련했습니다.

4. 실험 결과 (Results)

논문은 ImageNet(24 개 모델) 과 Fruits-360 데이터셋을 통해 실험을 수행했습니다.

충실도 (Fidelity):
- 다치 뷰: 1-NN 분류기를 사용하여 평가한 결과, 대부분의 모델에서 원본 신경망과 매우 높은 충실도 (0.999 에 근접) 를 보였습니다. 특히 유클리드 거리가 코사인 유사도보다 성능이 우수했습니다.
- 심볼릭 뷰: Tanh 활성화 함수를 사용한 모델은 0 임계값 ( $\delta=0$ ) 분할 시 높은 충실도 (약 97% 이상) 를 보였으나, ReLU를 사용한 모델은 음수 영역의 부재로 인해 심볼릭 변환 시 성능이 급격히 저하되었습니다.
모델 유사성: GW 거리를 통해 아키텍처가 유사한 모델들 (예: ResNet, EfficientNet 계열) 이 군집화되는 것을 시각적으로 확인했습니다. 이는 기존 CKA(Centered Kernel Alignment) 와는 다른, 공간 구조 기반의 유사성 측정이 가능함을 보여줍니다.
해석 가능성:
- 개념 격자를 통해 과일의 위계적 관계를 시각화하고, 특정 과일 (예: Cherry 와 Plum) 이 어떤 모델에서는 구분되지 않고 다른 모델에서는 구분되는지 분석했습니다.
- 하위 그룹 발견을 통해 "과일이 갈색이 아니고, 얼룩이 없으며, 주황색이 아니면 뉴런 13 이 활성화된다"와 같은 인간이 이해할 수 있는 규칙을 추출했습니다.

5. 의의 및 한계 (Significance & Limitations)

의의:

신경 - 심볼릭 AI 의 교량: 신경망의 통계적 학습 능력과 심볼릭 시스템의 논리적 추론 능력을 정형적으로 연결하는 다리 역할을 합니다.
전역적 이해: 개별 예측이 아닌 모델 전체의 지식 구조를 파악할 수 있게 하여, 모델의 편향이나 중복된 개념을 발견하는 데 기여합니다.
아키텍처 무관성: 특정 아키텍처에 의존하지 않으며, 마지막 은닉층과 출력층이 명확한 모든 분류 모델에 적용 가능합니다.

한계 및 향후 과제:

활성화 함수 의존성: 현재 제안된 이진화 스케일링은 Tanh 와 같은 대칭적 활성화 함수에 최적화되어 있으며, ReLU 등 비대칭 함수에는 추가적인 스케일링 전략이 필요합니다.
확장성: 개념 격자의 크기는 속성 수에 따라 기하급수적으로 증가하여 대규모 모델의 직접적인 시각화에는 한계가 있습니다.
아키텍처 제한: 현재는 순환 신경망 (RNN) 이나 트랜스포머 (Transformer) 와 같은 재귀적/주의 기반 아키텍처에는 적용이 어렵습니다.
배경 지식 의존성: 인간 친화적 설명의 품질은 입력된 배경 지식 (Ontology 등) 의 풍부함과 정확도에 종속됩니다.

결론적으로, 본 논문은 신경망의 내부 작동 원리를 형식적 개념 분석을 통해 체계적으로 해석할 수 있는 강력한 프레임워크를 제시하며, AI 의 투명성과 신뢰성을 높이는 데 중요한 이론적, 실용적 기여를 했습니다.