Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지식 증류 (Knowledge Distillation)"**라는 기술이 어떻게 작동하는지, 그리고 그 과정에서 어떤 놀라운 (그리고 때로는 위험한) 일이 일어나는지 기계의 '뇌'를 해부해서 분석한 연구입니다.

한마디로 요약하면: **"큰 선생님이 작은 학생에게 지식을 가르칠 때, 학생은 선생님의 '생각 방식'을 그대로 복사하는 게 아니라, 더 효율적이지만 더 fragile(취약한) 새로운 방법을 찾아낸다는 사실"**을 발견했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: 거인 선생님과 작은 학생

상상해 보세요. **거대한 도서관 (큰 AI 모델, Teacher)**이 있습니다. 이 도서관에는 수백만 권의 책이 있고, 어떤 질문이 들어와도 정답을 찾아내는 데 아주 정확하지만, 시간이 오래 걸리고 비쌉니다.

이제 우리는 이 도서관의 지식을 **작은 책장 (작은 AI 모델, Student)**에 담고 싶어 합니다. 이를 **'지식 증류'**라고 합니다. 작은 책장이 거인 선생님의 답변을 따라 하면, 빠르고 저렴하게 똑똑한 서비스를 만들 수 있죠.

하지만 문제는, 작은 책장이 정말로 거인 선생님의 '생각 과정'을 이해하고 따라 하는 걸까요? 아니면 그냥 정답만 외워서 대충 맞추는 걸까요? 이 논문은 그 '생각 과정 (회로)'을 자세히 들여다봤습니다.

2. 핵심 발견: "단축키"를 만든 학생들

연구진은 거인 선생님 (GPT-2 등) 과 작은 학생 (DistilGPT-2 등) 의 뇌 속을 들여다봤습니다. 결과는 놀라웠습니다.

선생님의 방식: 거인 선생님은 문제를 풀 때 여러 개의 팀 (컴포넌트) 이 협력합니다. 예를 들어, "숫자 순서 찾기" 문제를 풀 때, A 팀이 숫자를 찾고, B 팀이 순서를 확인하고, C 팀이 다음 숫자를 예측합니다. 팀이 많으니 하나가 고장 나도 다른 팀이 도와주어 튼튼합니다.
학생의 방식: 작은 학생은 자원이 부족하니까, 여러 팀의 일을 한두 명에게 몰아줍니다.
- "숫자 찾기"와 "순서 확인"을 한 사람이 동시에 합니다.
- 불필요한 팀은 아예 해고합니다.
- 그 결과, 학생은 더 적은 부품으로 선생님과 똑같은 정답을 냅니다.

비유하자면:
거인 선생님은 오케스트라처럼 50 명의 악기들이 조화롭게 연주해서 아름다운 음악을 냅니다. 한 명이 실수해도 전체 소리는 유지됩니다.
하지만 작은 학생은 1 인 밴드가 되어, 한 사람이 드럼, 기타, 보컬을 동시에 합니다. 소리는 비슷하게 들리지만, 그 한 사람이 실수하거나 고장 나면 음악은 완전히 멈춥니다.

3. 위험한 진실: "정답은 맞지만, 뇌는 약해졌다"

이 연구가 가장 중요하게 지적하는 점은 **견고성 (Robustness)**입니다.

정답률: 학생 모델은 평소에는 선생님만큼 좋은 점수를 맞습니다.
약점: 하지만 아주 작은 변화 (예: 입력 데이터에 약간의 노이즈가 섞이거나, 질문이 조금 달라지는 경우) 가 생기면, 학생 모델은 갑자기 무너집니다.

왜일까요? 학생이 핵심 부품 하나에 너무 의존하기 때문입니다. 거인 선생님은 "A 팀이 고장 나면 B 팀이 대신한다"는 백업 시스템이 있지만, 학생은 "A 팀이 고장 나면 끝장"인 구조로 변해버린 것입니다.

이를 논문에서는 **"취약한 내부 회로 (Brittle Internal Circuits)"**라고 부릅니다. 마치 다리가 하나뿐인 다리는 평소엔 잘 통행되지만, 그 다리가 끊기면 완전히 붕괴되는 것과 같습니다.

4. 새로운 측정 도구: "생각의 일치도" 점수

연구진은 이 문제를 해결하기 위해 새로운 측정 도구인 **'정렬 점수 (Alignment Metric)'**를 만들었습니다.

기존 방식: "정답이 같은가?" (점수만 비교)
새로운 방식: "생각하는 방식이 같은가?" (뇌 속 회로가 어떻게 작동하는지 비교)

이 도구를 사용하면, 정답은 똑같지만 생각 과정이 엉뚱하게 변한 학생 모델을 찾아낼 수 있습니다. 마치 시험에서 정답은 맞췄지만, 풀이 과정이 완전히 엉터리인 학생을 찾아내는 것과 같습니다.

5. 결론: 우리가 무엇을 배웠나?

이 연구는 AI 를 개발하거나 사용할 때 다음과 같은 교훈을 줍니다.

작고 빠른 AI 는 '약할' 수 있다: 모델을 작게 줄이면 (압축하면) 효율은 좋아지지만, 예상치 못한 상황에서는 더 쉽게 망가질 수 있습니다.
정답만 보면 안 된다: 모델이 좋은 점수를 낸다고 해서 무조건 신뢰할 수 없습니다. 그 모델이 **어떻게 그 정답에 도달했는지 (내부 회로)**를 확인해야 안전합니다.
새로운 검사 도구 필요: 앞으로 AI 모델을 선택할 때는 단순히 "정답률"만 보지 말고, 이 논문에서 제안한 **'생각의 일치도'**를 확인해야 더 안전하고 신뢰할 수 있는 AI 를 고를 수 있습니다.

한 줄 요약:

"작은 AI 모델은 거인 선생님의 지식을 빠르게 따라 할 수 있지만, 그 과정에서 생각의 다리를 하나만 남기는 위험한 선택을 하곤 합니다. 우리는 정답이 맞더라도 그 내부 구조가 얼마나 튼튼한지 확인해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

논문 제목: Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation (증류 회로: 지식 증류의 내부 구조 재편성에 대한 기작적 연구)

저자: Reilly Haskins, Benjamin Adams (University of Canterbury)
게재: Transactions on Machine Learning Research (03/2026)

1. 연구 배경 및 문제 제기 (Problem)

지식 증류 (Knowledge Distillation, KD) 는 대규모 '교사 (Teacher)' 모델을 더 작고 빠른 '학생 (Student)' 모델로 압축하여 효율적인 배포를 가능하게 하는 핵심 기술입니다. 그러나 기존 연구들은 주로 출력 (Output) 의 유사성이나 성능 최적화에 집중했을 뿐, 증류 과정에서 모델 내부의 계산 회로 (Internal Circuits), 표현 (Representations), 활성화 패턴이 어떻게 변형되는지에 대한 기작적 이해는 부족했습니다.

이 연구는 다음과 같은 핵심 문제를 제기합니다:

지식 증류 과정에서 학생 모델은 교사 모델의 내부 회로와 표현을 어떻게 재구성 (Reorganize) 하는가?
내부 메커니즘의 재구성이 학생 모델의 강건성 (Robustness) 에 어떤 영향을 미치는가?
출력 유사성 이상의 내부 계산 정렬 (Functional Alignment) 을 정량화할 수 있는 방법은 무엇인가?

2. 방법론 (Methodology)

저자들은 기작적 해석 가능성 (Mechanistic Interpretability, MI) 기법을 활용하여 GPT2(교사) 와 DistilGPT2(학생) 를 중심으로 분석을 수행했습니다. 또한, BERT/DistilBERT 와 Llama-3.1-8B/Minitron-4B 와 같은 다양한 아키텍처와 모델 크기로 일반화 가능성을 검증했습니다.

주요 분석 단계는 다음과 같습니다:

회로 발견 (Circuit Discovery):
- 경로 패칭 (Path Patching) 및 가지치기 (Pruning): 특정 태스크 (숫자 시퀀스 완성, 간접 목적어 식별 등) 에서 모델 성능에 중요한 영향을 미치는 어텐션 헤드와 MLP(다층 퍼셉트론) 를 식별하기 위해 노드 및 엣지 제거 실험을 수행했습니다.
- 성능 지표: 올바른 토큰과 오답 토큰 간의 로그-확률 차이 (Logit Difference) 를 사용하여 각 구성 요소의 기여도를 측정했습니다.
구성 요소 비교 (Component Comparison):
- 어텐션 분석: Query-Key(QK) 행렬을 분석하여 어텐션 헤드의 역할 (예: 숫자 감지, 후속자 계산 등) 을 파악하고 교사 - 학생 간 기능적 매칭을 수행했습니다.
- MLP 분석: 잔여 스트림 (Residual Stream) 의 활성화에 대한 PCA(주성분 분석) 와 코사인 유사도를 통해 MLP 의 기능적 중첩을 확인했습니다.
정렬 지표 (Alignment Metric) 제안:
- 출력 유사성만으로는 내부 계산의 차이를 포착하지 못하므로, 영향력 가중치 기반 구성 요소 유사도 (Influence-weighted Component Similarity) 를 기반으로 한 새로운 정렬 지표를 도입했습니다.
- 이 지표는 (1) 각 구성 요소의 태스크 기여도 (영향력) 를 계산하고, (2) 교사 - 학생 구성 요소 간 표현적 유사도로 매칭하며, (3) 유사도와 영향력 일치를 종합하여 전체 정렬 점수를 산출합니다.

3. 주요 발견 및 결과 (Key Findings & Results)

A. 내부 회로의 재구성과 압축 (Restructuring & Compression)

기능의 통합 및 삭제: 학생 모델은 교사 모델의 여러 기능을 단일 구성 요소 (헤드 또는 MLP) 로 통합하거나, 중요도가 낮다고 판단된 기능을 아예 삭제하는 경향을 보였습니다.
- 예시: GPT2 의 경우, 교사 모델의 MLP-T-9 와 MLP-T-10 의 기능이 학생 모델의 단일 MLP-S-4 로 통합되었습니다.
과도한 의존성 (Brittle Reliance): 학생 모델은 적은 수의 구성 요소에 훨씬 더 높은 의존도를 보였습니다. 특정 핵심 헤드를 제거했을 때 학생 모델의 성능 저하 폭이 교사 모델보다 훨씬 컸습니다.

B. 강건성 저하 (Reduced Robustness)

구성 요소 제거 실험: 다양한 모델 쌍 (GPT, BERT, Llama) 에서 학생 모델은 교사 모델에 비해 구성 요소 제거 (Ablation) 에 훨씬 취약했습니다.
- 데이터: GPT2 쌍에서 학생 모델의 평균 성능 하락은 12.24% 였으나, 교사는 3.06% 에 그쳤습니다. BERT 쌍에서는 각각 16.89% vs 6.26% 였습니다.
이는 증류된 모델이 내부적으로 중복된 백업 메커니즘을 잃고, 소수의 구성 요소에 과도하게 의존하게 되어 분포 외 (OOD) 데이터나 입력 왜곡에 취약해질 수 있음을 시사합니다.

C. 정렬 지표의 유효성

제안된 정렬 지표는 단순한 성능 차이 ( $\Delta \ell$ $Δ ℓ$ ) 와는 다른 내부 계산의 유사성을 포착했습니다.
- 예시: BERT/DistilBERT 쌍은 GPT2/DistilGPT2 쌍보다 성능 차이가 작았음에도 불구하고, 내부 계산 패턴의 차이로 인해 정렬 점수는 더 낮게 나타났습니다.
- 이는 출력 성능이 유사하더라도 내부 메커니즘이 완전히 일치하지 않을 수 있음을 보여주며, OOD 상황에서 모델의 실패를 예측하는 데 더 유용할 수 있음을 시사합니다.

4. 주요 기여 (Key Contributions)

지식 증류의 기작적 분석: 증류 과정에서 내부 회로가 어떻게 재구성, 압축, 삭제되는지에 대한 최초의 체계적인 기작적 연구 수행.
정량적 정렬 지표 개발: 출력 유사성을 넘어 내부 계산의 기능적 정렬을 자동으로 측정하는 새로운 지표 (Alignment Metric) 를 제안하고 검증함.
강건성 - 효율성 트레이드오프 규명: 모델 압축이 내부 메커니즘의 취약성 (Brittleness) 을 증가시킨다는 사실을 다양한 아키텍처와 모델 크기를 통해 입증함.
일반화 가능성 입증: GPT2, BERT, Llama 등 다양한 모델 패밀리에서 유사한 재구성 패턴이 관찰됨을 보여줌.

5. 의의 및 결론 (Significance)

이 연구는 지식 증류가 단순히 "작은 모델이 큰 모델의 행동을 모방하는 것"이 아니라, 내부 계산 구조의 근본적인 재편성을 동반한다는 점을 밝혔습니다.

실용적 함의: 증류된 모델이 높은 정확도를 보이더라도, 내부적으로 교사 모델과 다른 계산 경로를 사용하거나 과도하게 특정 구성 요소에 의존할 경우, 실제 배포 환경 (특히 OOD 상황) 에서 예측 불가능한 실패를 초래할 수 있음을 경고합니다.
안전성 및 신뢰성: 고신뢰도가 요구되는 분야 (의료, 금융 등) 에서 증류 모델을 사용할 때는 단순 성능 지표뿐만 아니라, 제안된 정렬 지표와 강건성 분석을 통해 내부 메커니즘의 적합성을 평가해야 함을 강조합니다.
미래 연구 방향: 증류 과정에서 발생하는 내부 계산의 보존, 병합, 재라우팅에 대한 이론적 설명과, 증류 손실 함수에 정렬 지표를 통합하여 더 견고한 학생 모델을 학습시키는 방법론 개발이 필요함을 제시합니다.

요약하자면, 이 논문은 지식 증류된 모델의 "블랙박스"를 열어 내부 회로의 변화를 시각화하고 정량화함으로써, 더 안전하고 신뢰할 수 있는 경량화 모델 개발을 위한 중요한 통찰을 제공합니다.